Ny, stor CD-ROM-samling


Tekstlaboratoriet holder for tiden på å bygge opp en stor CD-ROM- samling med interessante språkdata på forskjellige språk. De fleste CD-platene får vi fra Linguistic Data Consortium. Tekstlaboratoriets sivilarbeider Arne Martinus Lindstad har gått igjennom CD-platene for katalogisering og omtale, og gir her et lite innblikk i hva som er tilgjengelig:

Høsten 1996 har jeg jobbet på Tekstlaben med en rekke CD-ROM- utgivelser fra Linguistic Data Consortium (LDC). LDC er en sammenslutning av universiteter (UiO representert ved Tekstlaben), selskaper og forskningsgrupper, grunnlagt i 1992 og med base ved University of Pennsylvania. De har ingen kommersielle interesser, og deres formål er å samle inn og distribuere data til bruk innen språkforskning.

LDC orienterer seg for en stor del i et høyteknologisk landskap. Korporaene bygger ofte på og er ment å skulle bidra til utvikling av informasjonsteknologi til automatisk behandling av språk, det være seg skrift eller tale. Dette gjenspeiles ikke minst i de 19 LDC-korporaene som foreløpig er tilgjengelige på Tekstlaben. Mer inngående informasjon om LDC finnes på deres hjemmeside på web.

Alle CD-ROMer inneholder til dels omfattende dokumentasjon på alt det man kan forestille seg er nyttig for å kunne utnytte språkmaterialet i korpuset på den mest effektive måte. Dette dreier seg ofte om opplysninger om det aktuelle eksperimentet, forsøket e.l. som korpuset er resultatet av. Det kan være informasjon om relevante aspekter ved eventuelle forsøkspersoner - dialekt, demografiske opplysninger -, tekniske spesifikasjoner for utstyr som ble brukt under innsamling av data (mikrofoner, datautstyr etc.), utforming av opptaksomgivelser osv.

De rene språkdataene på CD-ROMene består i første rekke av talespråksdata, og engelsk er (svært) dominerende. Ti korpora inneholder engelske talespråksdata, men dette er ikke så ensidig som det kanskje kan virke. Disse ti har en ganske stor spennvidde når det gjelder dataenes karakter. Nå er riktignok mye av det beregnet på spesielle prosjekter, f.eks. innen talegjenkjenning (Continuous Speech Recognition - CSR), og noe av materialet har vel neppe noen utpreget interesse utover akkurat denne anvendelsen.

Noen av dataene er samlet inn ved at talen er spilt inn over telefonlinjer - vanlige og trådløse, slik at CSR-systemet kan trenes opp til å fungere i slike omgivelser. Andre korpora av denne typen er begrenset til spesielle prosjekter (f.eks. et prosjekt innen skipsfart og et informasjonssystem for flytrafikk). Dette betyr at alt det som finnes av tale holder seg innenfor et spesifisert domene, at det ikke legges noen begrensningerer på språkmodellen man benytter, men at talen alltid vil bevege seg innenfor en bestemt kontekst. Det benyttes et begrenset vokabular.

Et av prosjektene er derimot svært bredt anlagt, og gis input med stor variasjon. Vi har fire korpora fra dette prosjektet - også tekster -; et vell av data og som sagt svært variert. Flere vil også komme i løpet av 1997.

Det er ikke utelukket at korporaene kan brukes også i andre henseende enn talegjenkjenning; mange av dem bruker spesialdesignede ord- og setningslister, som dekker alle allofoner i amerikansk engelsk, eller mange forskjellige setningstyper, avhengig av hva slags korpus det er; de spenner fra enkeltord til setninger, dialoger og hele radiosendinger. I tillegg til all engelsken, har vi et korpus med latin- amerikansk spansk, et med nordamerikansk spansk (spansktalende immigranter i USA), samt et korpus på tysk. De to sistnevnte inneholder data fra telefonsamtaler.

Et av korporaene er spesielt på den måten at det ikke bare er veldig stort, det er faktisk også laget for generell lingvistisk forskning innen alt fra fonetikk til sosiolingvistikk. DCIEM Sleep Deprivation Study: Map Task Corpus består av dialoger, hvor forsøkspersoner som har fått for lite søvn, skal lede hverandre gjennom uidentiske kart, kun ved hjelp av muntlig kommunikasjon.

Men vi har også noen tekstkorpora fra LDC. Alle består av nyhetstekster fra aviser, men mest fra elektroniske kilder. Det første er på japansk, og består av et sted mellom 35 og 40 millioner ord fra nyheter innen økonomi. Det andre - på spansk - har tekster fra fem kilder; en mexikansk avis, samt fire leverandører av elektroniske nyheter. Det inneholder hele 172 millioner ord. Det tredje tekstkorpuset har tekster på fransk (100 mill. ord), portugisisk (15 mill.) og tysk (90 mill). Vi har også en samling med tagget og parset materiale på engelsk fra det såkalte Treebank-prosjektet. Med unntak fra noen tekster i Treebank er alt materialet fra 90-tallet.

Til sist finnes en leksikalsk database for engelsk, nederlandsk og tysk: CELEX. Denne inneholder informasjon om ortografi, fonologi, morfologi, syntaks og frekvens for de tre språkene.

Dette er det som foreløpig finnes fra LDC på Tekstlaboratoriet. Kommende nyheter er bl.a. ordbøker for mandarin, spansk og japansk, tekstkorpora (nyhetstekster) på engelsk og mandarin, et talespråkskorpus på japansk og flere på engelsk.

Det kan også nevnes at vi har en CD-ROM fra Oktober Forlag med tekster av Dag Solstad. Den inneholder hans samlede produksjon i årene 1965 - 1995.

Arne Martinus Lindstad


[Neste | Innhold | Tekstlab]


10. mars 1997, AML, <:arnel@ilf.uio.no>