LIA-korpus

LIA-prosjektet utviklar tre ulike talespråkskorpus:

NYTT 15. september 2019:
LIA norsk - korpus av eldre dialektopptak
Korpuset har 1374 informantar frå 226 kommunar og inneheld 3,5 millionar ord. Korpuset er transkribert både talemålsnært og ortografisk (nynorsk), og er morfologisk tagga med ein nyutvikla talemålstaggar for nynorsk: LIA-taggaren.

LIA norsk inneheld opptak og transkripsjonar frå fire universitet: NTNU, UiB, UiO og UiT. Korpuset inneheld også materiale frå Målførearkivet ved UiO som tidlegare var å finne i Nordisk dialektkorpus.

Søk i korpuset
Les brukarrettleiinga for LIA norsk


NYTT november 2019:
LIA Sápmi - Sámegiela hállangiellakorpus
LIA Sápmi er eit talespråkskorpus med samiske dialekter. Opptaka inneheld nesten 190 000 ord fordelt på 122 informantar frå 19 stader. Opptaka er frå tidsrommet 1960 – 1987, og det er opptak frå store delar av det nordsamiske området. Mange opptak stammar frå samlinga til Nils Jernsletten.

Arbeidet med korpuset er gjort i fellesskap av Universitetet i Oslo og UiT Noregs arktiske universitet. Opptaka er ortografisk transkriberte, og korpuset har fått automatisk lingvistisk analyse av Giellatekno ved UiT. Det er dermed mogleg å søke på ordklasse og lemma, i tillegg til ordform.

Søk i korpuset
Les brukarrettleiinga for LIA Sápmi


NYTT oktober 2019:
CANS - amerikanordisk talespråkskorpus
Korpuset inneheld 227 informantar frå USA og Canada, 22 som snakkar svensk og 205 som snakkar norsk, i alt over 746 000 ord. Dei eldste opptaka i korpuset er frå 1931 og dei nyaste er frå 2016. Opptaka er både talemålsnært og ortografisk transkriberte. Både dei svenske transkripsjonane og bokmålstranskripsjonane er ordklassetagga.

Søk i korpuset her
Les brukarrettleiinga for CANS


Ordlister på dialekt
Søk i ordlister frå meir enn 200 norske dialekter. Ordlistene er eit bonusprodukt frå Oslo-translitteratoren som translittererer frå ein talemålsnær transkripsjon til standard nynorsk.

Søk i ordlistene

Korpusa er fritt tilgjengelege for forsking gjennom innlogging med Feide, eduGAIN eller CLARIN. (Kontakt oss dersom du treng eit anna innloggingsalternativ.)

Dei komplette LIA-korpusa skal innehalde så mange lydfiler og transkripsjonar som mogleg frå LIA-prosjektet. Vi bruker Glossa som søkegrensesnitt slik at du på ein enkel måte kan søke på ord, frasar og ordklasser, avgrense utvalet med metadatavariablar og få transkripsjonar (både lydnære og ortografiske) kopla til lyd som resultat.

 

 

 



Kontakt:
Prosjektleiar professor Janne Bondi Johannessen j.b.johannessen ved iln.uio.no

eller

tekstlab-post ved iln.uio.no