LIA gjer gamle data tilgjengelege

Søk i den første versjonen av LIA norsk - korpus av eldre dialektopptak med meir enn 1,5 millionar ord.

Søk i den første versjonen av LIA Sápmi - Sámegiela hállangiellakorpus.

Søk i CANS - amerikanordisk talespråkskorpus med over 700 000 ord

LIA (Language Infrastructure made Accessible) er eit femårig nasjonalt samarbeidsprosjekt mellom fire universitet (UiO, UiB, UiT og NTNU), Norsk Ordbok 2014 og Nasjonalbiblioteket. Hovudmålet for prosjektet er å redde gamle talemålsopptak med norsk og samisk språk, transkribere og annotere dei og leggje dei inn i databasar slik at dei kan revitaliserast som verdifullt forskingsmateriale.

I løpet av dei siste 60 åra er det samla inn mange talemålsopptak for ulike formål rundt omkring i Noreg. Nokre av dei er digitaliserte og katalogiserte på systematisk vis, andre ligg i arkivskåp og skuffar. Mange av dei står i fare for å bli øydelagde.

LIA-prosjektet skal samle inn flest mogleg opptak frå dei fire universiteta: Universitetet i Oslo, Universitetet i Bergen, Universitetet i Tromsø - Noregs arktiske universitet og Noregs teknisk-naturvitskaplege universitet. Opptaka skal digitaliserast ved Nasjonalbiblioteket i Mo i Rana og kopiar skal langtidslagrast der. Deretter vil prosjekttilsette på LIA høyre igjennom opptaka, katalogisere dei og utstyre dei med mest mogleg metadata. Dei mest interessante opptaka med god kvalitet vil bli transkriberte.

Dei norske opptaka skal transkriberast på to måtar: ein talemålsnær variant og ein med nynorsk ortografi. Transkripsjonane vil vere kopla til kvarandre og til dei originale lydfilene. Dei transkriberte opptaka vil til slutt bli lagde inn i nye Glossa, eit brukarvennleg korpussøkegrensesnitt.

Alle lydband og transkripsjonar vil vere fritt tilgjengelege for andre via ei nedlastingsside.

Opptaka i LIA vil vere av to typar:

Norsk i Amerika har sine eigne heimesider med oversyn over mellom anna forskingsmål, opptak og feltarbeid.

Sjå heimesida til Norsk i Amerika.

Samisk har sitt eige korpus der opptaka er transkriberte ortografisk.

Eit mål i LIA er også å annotere dei transkriberte opptaka automatisk. Dette krev nyutvikling av ein parsar for norsk talemål. Glossa må dessutan videreutviklast for å kunne søke i hierarkiske strukturar. Prosjektet er leia av professor Janne Bondi Johannessen ved ILN og Tekstlaboratoriet. Store delar av arbeidet vil bli gjort ved Tekstlaboratoriet, men dei tre andre universiteta vil også tilsette eigne transkribørar.

Giellatekno ved Universitetet i Tromsø står for morfologisk tagging og parsing av samisk.

LIA-prosjektet er finansiert gjennom forskingsinfrastrukturprogrammet til Forskingsrådet.

 

 Kontakt:
Prosjektleiar professor Janne Bondi Johannessen j.b.johannessen ved iln.uio.no

eller

tekstlab-post ved iln.uio.no