Nye korpus tilgjengelige fra Tekstlaben


 

Siden siste Bulletin kom ut i 1999, har det selvfølgelig kommet en god del nye korpustilbud hos oss. Vi skaffer oss nye korpus gjennom vårt abonnement hos Linguistic Data Consortium (LDC; http://www.ldc.upenn.edu/), som har en stadig voksende korpuskatalog som de deler med sine abonnenter. Og det er som kjent ikke bare norsk og engelsk og andre dagligdagse språk vi kan tilby – her finnes det nok av muligheter også for studenter og brukere av mer eksotiske språk:

 

Vi har blant annet fått ei rekke korpus med østasiatiske språk. Først og fremst gjelder dette forskjellige varianter av kinesisk. Der har vi nå fått to parallellkorpus med kantonesiske tekster og deres engelske oversettelser (og vice versa); det ene korpuset består av nyhetsartikler fra Hongkongs informasjonsbyrå, og det andre av lovtekster fra Hongkongs justisdepartement. Et tredje parallellkorpus fra Hong Kong inneholder møteprotokoller fra regionens lovgivende forsamling.

 

På mandarinkinesisk har vi to skriftlige korpus, satt sammen av artikler fra fastlandskinesiske nyhetsbyråer. Det ene korpuset er også utstyrt med syntaktisk informasjon om de enkelte ordene. Videre har vi to talespråkskorpus på mandarin, begge innspilt fra radiostasjonen Voice Of Americas (VOA) mandarinsendinger. Det ene av disse har tidligere (i 1999) blitt tilgjengelig fra Tekstlaben i transkribert format. Et tredje talespråkskorpus inneholder radiosendinger på både spansk og mandarinkinesisk, fra ulike stasjoner. Endelig har vi også fått plass til et ikke-kinesisk språk fra Øst-Asia – et skriftlig korpus på koreansk.

 

Hvis vi beveger oss vestover, kan vi plukke med oss enkelte andre eksotiske språk på veien. Arabisk er representert med ett korpus, sammensatt av artikler fra nyhetsbyrået Agence France Presse (AFP). På tsjekkisk har vi to korpus – et talespråkskorpus tatt opp fra VOAs tsjekkiskspråklige sendinger, og et korpus bestående av en transkripsjon av det nevnte talespråkskorpuset. Når vi til slutt når Vesten igjen, har vi et korpus på spansk, satt sammen av artikler fra nyhetsbyråene El Norte og AFP.

 

Det kommer vel ikke som noen overraskelse at en større del av det nye materialet fra LCD er på engelsk. Vi har blant annet to talespråkskorpus produsert for det militære, til forskning på talegjenkjenning i bråkete omgivelser. Korpusene er tatt opp i spesielt kontrollerte forsøk, som skal etterlikne militær radiokommunikasjon. Begge disse korpusene foreligger også i transkribert format. Et annet talespråkskorpus er Santa Barbara Corpus of Spoken American English Part-I, som inneholder mikrofonopptak av språkbruk i de forskjelligste situasjoner – byrådsmøter, skoleklasser, kortspill, historiefortellinger på sengekanten, brylluper, sladder, etc.. Videre har vi en serie på to korpus tatt opp fra forskjellige engelskspråklige radio-stasjoner i to tidsperioder. Et annet talespråksmateriale tatt opp fra radio, foreligger både i lyd- og tekstformat, og skal brukes til forskning på emnesøk og emnegjenkjenning i korpus. Endelig har vi et engelsk skriftspråkskorpus, bestående av nyhetsbyråartikler.

 

Dette var altså ei kjapp gjennomgang av de nyhetene vi har fått. Men vi får som sagt stadig flere, og man kan oppdatere seg på hva vi har inne ved å gå inn på LCDs hjemmesider (adressen er angitt ovenfor). Ønsker du å benytte deg av noen av disse korpusene, er det selvfølgelig bare å kontakte Tekstlaboratoriet. Vi står alltid til rådighet!

Pål Kristian Eriksen, sivilarbeider

 


[Neste | Inhold | Tekstlab | HF]


3. mai 2001, AN, <anders.noklestad@ilf.uio.no>