LDC - Linguistic Data Consortium

Tekstlaboratoriet var medlem i LDC, som gir ut mange CD-ROMer, DVDer og filsamlinger hvert år, som regel med data fra de store verdensspråkene. Her finnes både tekst- og talespråkskorpora på flere språk.

Legg merke til at det finnes mer inngående informasjon om en del av korpusene under beskrivelsen av hvert enkelt språk. Enkelte av korpusene inneholder dessuten data fra flere språk og er derfor beskrevet under siden for flerspråklige

Legg videre merke til at det til mange av CD-ROMene og DVDene finnes tilhørende transkripsjoner av lydfilene tilgjengelig.

Beskrivelsene av korpusene som er gitt nedenfor, er oversatte og forkortede utgaver av beskrivelsene som finnes på LDCs hjemmesider. Innenfor hver beskrivelse kan man klikke på overskriften (navnet på korpuset) for å komme til LDCs fullstendige beskrivelse.

Liste over CD-ROMer, DVDer og filsamlinger

Arabic Gigaword (9. desember 2003)
Santa Barbara Corpus of Spoken American English Part II (9. desember 2003)
SLX Corpus of Classic Sociolinguistic Interviews (9. desember 2003)
FORM2 Kinematic Gesture (9. desember 2003)
ANC First Release (9. desember 2003)
Chinese Gigaword (9. desember 2003)
Grassfields Bantu Fieldwork: Ngomba Tone Paradigms (10. oktober 2003)
English Gigaword (10. oktober 2003)
Korean Telephone Conversations Transcripts (10. oktober 2003)
Korean Telephone Conversations Speech (10. oktober 2003)
Grassfields Bantu Fieldwork: Dschang Tone Paradigms (23. mai 2003)
Grassfields Bantu Fieldwork: Dschang Lexicon (23. mai 2003)
The AQUAINT Corpus of English News Text (6. januar 2003)
2001 NIST Speaker Recognition Evaluation Corpus (6. januar 2003)
Callhome Egyptian Arabic Speech Supplement (20. august 2002)
Emotional Prosody Speech and Transcripts (20. august 2002)
1997 HUB5 Arabic Evaluation (30. juli 2002)
1997 HUB4 English Evaluation Speech and Transcripts (13. juni 2002)
2001 HUB5 Mandarin Evaluation (13. juni 2002)
2001 HUB5 English Evaluation (22. april 2002)
1998 HUB5 English Evaluation (3. april 2002)
Switchboard-2 Phase III Audio (3. april 2002)
CETEMPúblico Version 1.7 (20. mars 2002)
RST Discourse Treebank (20. mars 2002)
Speech in Noisy Environments (SPINE2) Part 3 Audio (Evaluation data) (22. januar 2002)
Switchboard Cellular Part 1 Transcribed Audio (8. januar 2002)
Switchboard Cellular Part 1 Audio (8. januar 2002)
Switchboard Cellular Part 1 Transcription (7. januar 2002)
Chinese Treebank Version 2.0 (7. januar 2002)
Syllable-Final /s/ Lenition (28. november 2001)
Speech in Noisy Environments (SPINE2) Part 2 Audio (Development data) (22. november 2001)
Speech in Noisy Environments (SPINE2) Part 1 Audio (Training data) (22. november 2001)
Prague Dependency Treebank 1.0 (22. november 2001)
The 2000 NIST Speaker Recognition Evaluation (7. august 2001)
CallHome Spanish Dialogue Act Annotation (7. august 2001)
Message Understanding Conference (MUC) 7 (7. august 2001)
TDT3 Multilanguage Text Corpus (15. juni 2001)
TDT2 Multilanguage Text Corpus Version 4.0 (15. juni 2001)
TDT3 Broadcast News Mandarin Corpus (Audio) (9. april 2001)
1997NE HUB-4 Broadcast News Evaluation Non-English Test Material (9. april 2001)
Arabic Newswire A Corpus (2. april 2001)
Topic Detection and Tracking (TDT2) Mandarin Audio (8. mars 2001)
Topic Detection and Tracking (TDT2) Careful Transcription Audio Corpus (8. mars 2001)
Speech in Noisy Environments (SPINE) Evaluation Audio (30. januar 2001)
TREC Mandarin Text REtrieval Conference - Mandarin Newswire (30. januar 2001)
Speech in Noisy Environments (SPINE) Evaluation Transcripts (4. januar 2001)
Chinese Treebank Final Release (4. januar 2001)
Voice of America (VOA) Czech Broadcast News Audio (16. november 2000)
Speech in Noisy Environments (SPINE) Training Audio (9. oktober 2000)
1999 HUB-4 - Broadcast News Evaluation - English Test Material (9. oktober 2000)
Korean Newswire (19. september 2000)
1998 HUB-4 - Broadcast News Evaluation - English Test Material (19. september 2000)
Hong Kong News Parallel Text (15. september 2000)
Hong Kong Laws Parallel Text (15. september 2000)
Hong Kong Hansards Parallel Text (6. september 2000)
The Penn Treebank Project - Release 3 (5. januar 2000)
Spanish Newswire Text Corpus (5. januar 2000)
Portuguese Newswire Text Corpus (5. januar 2000)
TDT2 Text Data and Tables - English and Mandarin (5. januar 2000)
Tactical Speaker Identification Speech Corpus (TSID) (6. september 1999)
TDT-2 English Text Corpus (23. juni 1999)
Switchboard-2 Phase II Speech Corpus (3. mars 1999)
Speech Under Simulated and Actual Stress (SUSAS) (16. november 1998)
COMLEX English Syntax Lexicon
North American News Text Corpus (Supplement) and AP Worldstream English (31. august 1998)
Voicemail Corpus Part 1 - Speech and Transcripts (28. august 1998)
1997 Mandarin Broadcast News Speech Corpus (Hub-4NE) (19. august 1998)
CSR 1996 Language Model - Broadcast News Archive (4. august 1998)
Switchboard-2 Phase I Speech Corpus (7. juli 1998)
Hub-5 Spanish Telephone Speech Data (19. juni 1998)
Hub-5 Mandarin Telephone Speech Data (19. juni 1998)
Taiwanese Putonghua Corpus (TWPTH) (25. Mai 1998)
1997 English Broadcast News Speech Corpus (25. mai 1998)
1996 English Broadcast News Speech Corpus (25. Mai 1998)
1997 Spanish Broadcast News Speech Corpus (25. Mai 1998)
Switchboard-1 Release 2
North American News Text Corpus
JEIDA (JCSD) Japanese Speech Data
Kids Corpus
CallHome Collection
- CallHome English
- CallHome German
- CallHome Spanish
- CallHome Mandarin Chinese
- CallHome Egyptian Arabic
- CallHome Japanese
CallFriend Collection
- CallFriend American English-Non-Southern Dialect
- CallFriend American English-Southern Dialect
- CallFriend Canadian French
- CallFriend Egyptian Arabic
- CallFriend Farsi
- CallFriend German
- CallFriend Hindi
- CallFriend Japanese
- CallFriend Korean
- CallFriend Mandarin Chinese-Mainland Dialect
- CallFriend Mandarin Chinese-Taiwan Dialect
- CallFriend Spanish-Caribbean Dialect
- CallFriend Spanish-Non-Caribbean Dialect
- CallFriend Tamil
- CallFriend Vietnamese
Voice Across Hispanic America
Resource Management / Continuous Speech Database
DCIEM/HCRC Sleep Deprivation Study / Map Task Corpus
Multi-Microphone
FFM TIMIT - Acoustic-Phonetic Continuous Speech Corpus
Radio Broadcast News
CTIMIT - Cellular TIMIT Speech Corpus
The CELEX Lexical Database / Release 2 - engelsk, nederlandsk, tysk
Hansard French/English
Mandarin Chinese News Text Corpus
European Language News Corpus - fransk, portugisisk, tysk
Spanish News Text
Japanese Business News Text
The Penn Treebank Project / Release 2
CSR-III: Language Model
Latino-40 - Spanish Speech Corpus
NYNEX Phonebook / Telephone Speech Corpus
ATIS3 - Part 2 / Air Travel Information System
The TRAINS Spoken Dialog Corpus
CSR-III: North American Business News
KING Speech Corpus

Arabic Gigaword

DVD

Denne DVDen inneholder et stort arkiv med nyhetsmeldinger. Materialet kommer fra Agence France Presse, Al Hayat News Agency, Al Nahar News Agency og Xinhua News Agency. Noe av materialet inngår også i tidligere utgitte LDC-korpus.

Korpuset består av 319 filer i SGML-format og inneholder ca. 391 mill. ord.

[Opp | Arabisk]

Santa Barbara Corpus of Spoken American English Part II

DVD

Denne DVDen inneholder ca. 6 timers lydopptak som omfatter hundrevis av samtaler fra hele USA. Samtalene spenner over et vidt spekter av språklige bruksområder og involverer deltakere fra mange forskjellige aldersgrupper, yrkesgrupper og religiøse, etniske og sosiale grupper.

DVDen inneholder også transkripsjoner av samtalene, både i CHAT-format og i LDC Callhome-format.

Dette korpuset utgjør den amerikanske komponenten av International Corpus of English (ICE).

[Opp | Engelsk]

SLX Corpus of Classic Sociolinguistic Interviews

DVD

Dette korpuset inneholder 8 sosiolingvistiske intervjuer fra 60- og 70-tallet. Hvert interjvu er gjennomført av William Labov eller en av hans studenter. DVDen inneholder lydopptak og transkripsjoner av intervjuene.

[Opp | Engelsk]

FORM2 Kinematic Gesture

FORM er et format for annotering av gester. "Fonetiske" trekk ved gestene blir uttrykt ved hjelp av geometriske beskrivelser av sted og bevegelse for hver arm. Mer informasjon om FORM finnes her: http://www.ldc.upenn.edu/Projects/FORM.

Denne CDen inneholder 8 videofiler, 8 filer i Anvil-format og 8 filer i FORM-format. Videoopptakene er fra et foredrag som Brian MacWhinney holdt ved Carnegie Mellon University 24. januar 2000.

[Opp | Engelsk]

ANC First Release

Dette er første utgave av American National Corpus, et korpus med amerikansk engelsk som skal være sammenliknbart med det British National Corpus er for britisk engelsk. Denne utgaven av korpuset inneholder ca. 11,5 mill. ord, men det endelige korpuset er ment å skulle omfatte 100 mill. ord. Tekstene er i XML-format.

[Opp | Engelsk]

Chinese Gigaword

DVD

Denne DVDen inneholder et stort arkiv med nyhetsmeldinger som er samlet over flere år. Materialet kommer fra Central News Agency of Taiwan og Xinhua News Agency of Beijing. Noe av Xinhua-materialet inngår også i tidligere utgitte LDC-korpus.

Korpuset består av 286 filer i SGML-format og inneholder ca. 1,1 milliarder kinesiske tegn.

[Opp | Kinesisk]

Grassfields Bantu Fieldwork: Ngomba Tone Paradigms

CD-ROM

Denne CD-ROMen inneholder toneparadigmer for Ngomba, et Bamileke-språk som snakkes av 63 000 mennesker i Kamerun. Paradigmene er gitt ved hjelp av sett av ytringer som er lenket til lydfiler, og i tillegg er det oppgitt fonetiske og tonemiske transkripsjoner.

[Opp | Bantu]

English Gigaword

CD-ROM

Denne CD-ROMen inneholder et stort sett av nyhetsartikler som er samlet av LDC over mange år. En del av materialet er tidligere utgitt, men en betydelig andel er nytt materiale (nærmere detaljer finnes i LDCs beskrivelse av korpuset).

Korpuset inneholder nyhetsartikler fra følgende fire kilder:

Agence France Press English Service
Associated Press Worldstream English Service
The New York Times Newswire Service
The Xinhua News Agency English Service

[Opp | Engelsk]

Korean Telephone Conversations Transcripts

Filarkiv

Dette filarkivet inneholder transkripsjoner av telefonsamtalene i Korean Telephone Conversations Speech. Det består av 100 tekstfiler (ca. 190K).

[Opp | Koreansk]

Korean Telephone Conversations Speech

CD-ROM

Disse 3 CD-ROMene inneholder telefonsamtaler mellom koreanere på opp til 30 minutter hver, der 15-18 minutter er transkribert og er gjort tilgjengelig som Korean Telephone Conversations Transcripts. Alle deltakere var klar over at samtalene ble tatt opp. De kunne fritt velge hvem de ville ringe og hva de ville snakke om.

Korpuset inneholder 100 filer med taledata og utgjør ca. 44 timer.

[Opp | Koreansk]

Grassfields Bantu Fieldwork: Dschang Tone Paradigms

CD-ROM

Denne CD-ROMen inneholder toneparadigmer for Yémba (Bamileke Dschang), et Bamileke-språk som snakkes av litt over 300 000 mennesker i sørvestre Kamerun. Paradigmene er gitt ved hjelp av sett av ytringer som er lenket til lydfiler, og i tillegg er det oppgitt fonetiske transkripsjoner, samt tonemiske transkripsjoner for ca. halvparten av ytringene.

[Opp | Bantu]

Grassfields Bantu Fieldwork: Dschang Lexicon

CD-ROM

Denne CD-ROMen inneholder et leksikon for Yémba (Bamileke Dschang), et Bamileke-språk som snakkes av litt over 300 000 mennesker i sørvestre Kamerun. Leksikonet finnes i HTML-format med lenker til lydfiler for hvert leksikonoppslag.

[Opp | Bantu]

The AQUAINT Corpus of English News Text (6. januar 2003)

CD-ROM

Dette korpuset inneholder nyhetstekster på engelsk, hentet fra Xinhua News Service (Folkerepublikken Kina), New York Times News Service og Associated Press Worldstream News Service. Korpuset er på 3GB og inneholder ca. 375 millioner ord. Filene er SMGL-tagget.

[Opp | Engelsk]

2001 NIST Speaker Recognition Evaluation Corpus (6. januar 2003)

CD-ROM

Dette korpuset er ment som et testkorpus for evaluering av systemer for tekstuavhengig automatisk gjenkjenning av talere. Det består av 2350 filer i SPHERE-format, som utgjør 26 timer lydopptak.

[Opp | Engelsk]

Callhome Egyptian Arabic Speech Supplement

CD-ROM

Denne CD-ROMen inneholder 20 telefonsamtaler på egyptisk arabisk. Samtalene utgjør 8 timer lyddata. Transkripsjoner finnes i nettet.

[Opp | Arabisk]

Emotional Prosody Speech and Transcripts

CD-ROM

Disse 5 CD-ROMene inneholder lyddata og transkripsjoner fra opptak av profesjonelle skuespillere som leser opp semantisk nøytrale ytringer (datoer og tall) med bruk av fjorten ulike emosjonelle kategorier. Korpuset er ment å brukes til forskning på emosjonsprosodi, og inneholder 15 opptak med tilhørende transkripsjoner.

[Opp | Engelsk]

1997 HUB5 Arabic Evaluation

CD-ROM

Denne CD-ROMen inneholder 20 lydfiler i SPHERE-format. Filene er opptak av telefonsamtaler, og utgjør 405MB data. De er ment å brukes til å evaluere systemer for automatisk talegjenkjenning.

Transkripsjoner er tilgjengelige i nettet.

[Opp | Arabisk]

1997 HUB4 English Evaluation Speech and Transcripts

CD-ROM

Denne CD-ROMen inneholder en lydfil i SPHERE-format som omfatter ca. 3 timer taledata fra nyhetssendinger på radio og TV. CD-ROMen inkluderer også transkripsjoner av taledataene. Transkripsjonene utgjør ca. 30 000 ord. Filene er ment å brukes til å evaluere systemer for automatisk talegjenkjenning.

[Opp | Engelsk]

2001 HUB5 Mandarin Evaluation

CD-ROM

Denne CD-ROMen inneholder 20 lydfiler i SPHERE-format som utgjør 8 timer taledata. Dataene er hentet fra samtaler i korpuset Mandarin CALLHOME. Filene er ment å brukes til å evaluere systemer for automatisk talegjenkjenning.

[Opp | Kinesisk]

2001 HUB5 English Evaluation

CD-ROM

Denne CD-ROMen inneholder lydfiler i SPHERE-format som omfatter 60 samtaler. Filene er ment å brukes til å evaluere systemer for automatisk talegjenkjenning.

[Opp | Engelsk]

1998 HUB5 English Evaluation

CD-ROM

Denne CD-ROMen inneholder lydfiler i SPHERE-format som omfatter 40 samtaler, hvorav 20 er hentet fra CallHome English og 20 fra Switchboard 2 Phase II. Filene er ment å brukes til å evaluere systemer for automatisk talegjenkjenning.

[Opp | Engelsk]

Switchboard-2 Phase III Audio

CD-ROM

Disse 20 CD-ROMene inneholder taledata fra 2728 telefonsamtaler mellom personer i det sørlige USA med engelsk som morsmål. Hver samtale varte 5-6 minutter. 292 menn og 348 kvinner deltok i samtalene.

I tillegg til taledataene inneholder korpuset informasjon om samtaledeltakerne (kjønn, alder, utdannelse, by og stat som personen vokste opp i), informasjon om samtalen (dato, tidspunkt, varighet, personlige identifikasjonsnummer, emne) og informasjon om opptakskvalitet (lydkvalitet og bakgrunnsstøy).

Korpuset inneholder 2657 filer, som utgjør ca. 222 timer taledata.

[Opp | Engelsk]

CETEMPúblico Version 1.7

CD-ROM

Denne CD-ROMen inneholder Corpus de Extractos de Textos Electrónicos MCT/Público, versjon 1.7. Dette er et korpus av avistekster hentet fra den portugisiske dagsavisen Público som er satt sammen med tanke på forskning og utvikling innen prosessering av naturlig språk (NLP). Arbeidet med å sette sammen korpuset er gjort av prosjektet Computational Processing of Portuguese, og versjon 1.7 er laget av Diana Santos og Paulo Rocha og produsert i Oslo.

Korpuset inneholder ca. 2600 utgaver av Público hentet fra årene 1991-1998, og utgjør ca. 180 millioner ord. Det finnes også en utgave av korpuset som er tilgjengelig på nettet, og den versjonen er gjort søkbar ved hjelp av IMS Corpus Workbench (se http://cgi.portugues.mct.pt/cetempublico/whatisCETEMP.html for mer informasjon).

[Opp | Portugisisk]

RST Discourse Treebank

Filsamling

Denne filsamlingen inneholder Rhetorical Structure Theory Discourse Treebank, som består av 385 artikler fra Wall Street Journal hentet fra Penn Treebank. Artiklene har blitt merket med diskursstruktur i henhold til Rhetorical Structure Theory (RST). Oppmerkingen har blitt gjort ved hjelp av et verktøy som kan lastes ned fra http://www.isi.edu/~marcu/discourse.

[Opp | Engelsk]

Speech in Noisy Environments (SPINE2) Part 3 Audio (Evaluation data)

CD-ROM

Disse 3 CD-ROMene inneholder Speech in Noisy Environments 2 (SPINE2) Evaluation Data laget for Department of Defense (DoD) Digital Voice Processing Consortium (DDVPC) av Arcon Corp. og produsert av Linguistic Data Consortium. Korpuset er ment å bli brukt til å evaluere talegjenkjenning under støy, særlig militær støy, og inneholder taledata fra samtaler mellom personer som samarbeider i et simulert militært angrep.

Korpuset inneholder 64 samtaler som utgjør ca. 7 timers tale. Transkripsjoner er tilgjengelige i nettet.

[Opp | Engelsk]

Switchboard Cellular Part 1 Transcribed Audio

CD-ROM

Disse 3 CD-ROMene inneholder de samtalene i LDC-korpuset Switchboard Cellular Part 1 som har blitt transkribert. De transkriberte samtalene utgjør 250 av totalt 1309 samtaler. Transkripsjonene finnes i nettverket under navnet Switchboard Cellular Part 1 Transcription.

Lydfilene utgjør ca. 12 timer.

[Opp | Engelsk]

Switchboard Cellular Part 1 Audio

CD-ROM

Disse 13 CD-ROMene inneholder 1309 samtaler foretatt over mobiltelefon under varierende forhold. Hver samtale er på 5-6 minutter. Samtalene inkluderer 254 samtalepartnere (129 mannlige og 125 kvinnelige).

250 av samtalene har blitt transkribert. En kopi av disse samtalene finnes på CD-ROMene Switchboard Cellular Part 1 Transcribed Audio, mens transkripsjonene finnes i nettverket under navnet Switchboard Cellular Part 1 Transcription.

Opptakene utgjør ca. 65 timer.

[Opp | Engelsk]

Switchboard Cellular Part 1 Transcription

Filsamling

Disse filene inneholder transkripsjoner av 250 av de 1309 samtalene som inngår i LDC-korpuset Switchboard Cellular Part 1. Lydfilene med de transkriberte samtalene finnes i Switchboard Cellular Part 1 Transcribed Audio. Samtalene ble foretatt over mobiltelefon under varierende forhold og var på 5-6 minutter hver. Samtalene inkluderer ca. like mange kvinnelige som mannlige personer.

Lydfilene som er transkribert, utgjør ca. 12 timer.

[Opp | Engelsk]

Chinese Treebank Version 2.0

Filsamling

Disse filene inneholder ca. 100 000 ord med syntaktisk tagget tekst, fordelt på 4185 setninger i 325 filer. Materialet er 325 artikler fra nyhetsbyrået Xinhua.

Denne versjonen erstatter Chinese Treebank Final Release.

[Opp | Kinesisk]

Syllable-Final /s/ Lenition

Filsamling

Disse filene inneholder et studium av lenisering av stavelsesfinal /s/ i latinamerikansk spansk. Dataene er hentet fra LDC-korpuset CALLHOME Spanish Speech, som Tekstlaboratoriet har på CD-ROM, samt tilhørende transkripsjon og leksikon, som er tilgjengelige i nettet.

[Opp | Spansk]

Speech in Noisy Environments (SPINE2) Part 1 Audio (Development data)

CD-ROM

Disse 2 CD-ROMene inneholder Speech in Noisy Environments 2 (SPINE2) Development Data laget for Department of Defense (DoD) Digital Voice Processing Consortium (DDVPC) av Arcon Corp. og produsert av Linguistic Data Consortium. Korpuset er ment å bli brukt til å evaluere talegjenkjenning under støy, særlig militær støy, og inneholder taledata fra samtaler mellom personer som samarbeider i et simulert militært angrep.

Korpuset inneholder 32 samtaler som utgjør ca. 3,5 timers tale. Transkripsjoner er tilgjengelige i nettet.

[Opp | Engelsk]

Speech in Noisy Environments (SPINE2) Part 1 Audio (Training data)

CD-ROM

Disse 3 CD-ROMene inneholder Speech in Noisy Environments 2 (SPINE2) Training Data laget for Department of Defense (DoD) Digital Voice Processing Consortium (DDVPC) av Arcon Corp. og produsert av Linguistic Data Consortium. Korpuset er ment å bli brukt til å evaluere talegjenkjenning under støy, særlig militær støy, og inneholder taledata fra samtaler mellom personer som samarbeider i et simulert militært angrep.

Korpuset inneholder 64 samtaler som utgjør ca. 7 timers tale. Transkripsjoner er tilgjengelige i nettet.

[Opp | Engelsk]

Prague Dependency Treebank 1.0

CD-ROM

Denne CD-ROMen inneholder følgende data og verktøy:

Morfologisk og syntaktisk taggede tsjekkiske tekster (1,8 mill. ord)
Tsjekkisk-engelsk parallellkorpus, parallellstilt ("aligned") (0,9/1 mill. ord)
Utaggede tsjekkiske tekster (over 30 mill. ord)
Tsjekkiske NLP-verktøy (morfologi, tagging)
Generelle taggingsverktøy (verktøy for å se på og redigere trær)

[Opp | Tsjekkisk | Engelsk]

2000 NIST Speaker Recognition Evaluation

CD-ROM

Dette korpuset er ment som et testkorpus for evaluering av systemer for tekstuavhengig automatisk gjenkjenning av talere. Det består av 10,328 filer i SPHERE-format som inneholder 148,9 timer lydopptak. Mer informasjon om evalueringskorpuset finnes på nettsiden til 2000 NIST Speaker Recognition Evaluation.

[Opp | Engelsk]

CallHome Spanish Dialogue Act Annotation

Filsamling

Denne filsamlingen inneholder manuelt taggede transkripsjoner av LDC-korpuset CallHome Spanish. Transkripsjonene er tagget med hensyn til dialogstruktur på tre nivåer (flere detaljer om taggingen finnes på http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2001T61).

Korpuset inneholder taggede transkripsjoner av alle de 120 dialogene i CallHome Spanish-korpuset.

[Opp | Spansk]

Message Understanding Conference (MUC) 7

Filsamling

Denne filsamlingen inneholder tekstene som ble brukt i konferanserapporten fra Message Understanding Conference (MUC) 7. Informasjon om MUC 7 finnes her: http://www.itl.nist.gov/iaui/894.02/related_projects/muc.

[Opp | Engelsk]

TDT3 Multilanguage Text Corpus

CD-ROM

Denne CD-ROMen inneholder nyhetsstoff på engelsk og mandarin, beregnet på Topic Detection and Tracking. Nyhetsmeldingene har blitt hentet hver dag i tre måneder (oktober-desember 1998) fra de samme ni kildene som ble brukt for TDT2 pluss to andre engelske TV-kanaler. Korpuset består av ca. 31 tusen engelske og 13 tusen mandarinske nyhetsmeldinger.

For hver nyhetsmelding finnes det både en versjon som er lagd ved hjelp av automatisk talegjenkjenning og/eller maskinoversettelse og en manuelt opprettet versjon.

[Opp | Engelsk | Kinesisk]

TDT2 Multilanguage Text Corpus Version 4.0

CD-ROM

Denne CD-ROMen inneholder nyhetsstoff på engelsk og mandarin, beregnet på Topic Detection and Tracking. Nyhetsmeldingene har blitt hentet hver dag i seks måneder (januar-juni 1998) fra ni ulike kilder. Korpuset består av ca. 54 tusen engelske og 19 tusen mandarinske nyhetsmeldinger.

For hver nyhetsmelding finnes det både en versjon som er lagd ved hjelp av automatisk talegjenkjenning og/eller maskinoversettelse og en manuelt opprettet versjon.

[Opp | Engelsk | Kinesisk]

TDT3 Broadcast News Mandarin Corpus (Audio)

CD-ROM

Disse 13 CD-ROMene inneholder opptak av mandarinske nyhetsprogrammer fra Voice of America, hvert på 60 minutter. Opptakene ble gjort to ganger daglig. Transkripsjoner av nyhetssendingene vil bli publisert som korpusene TDT3 Mandarin Text og TDT3 Multilanguage Text.

[Opp | Kinesisk]

1997NE HUB-4 Broadcast News Evaluation Non-English Test Material

CD-ROM

Denne CD-ROMen inneholder testmaterialet for evaluering som ble brukt i 1997 DARPA/NIST Continuous Speech Recognition Broadcast News Hub-4 Non English Benchmark Test, organisert av NIST Spoken Natural Language Processing Group. Materialet inneholder én times utdrag av spanske radionyheter fra 1997 og én times utdrag av mandarinske radionyheter fra samme år.

[Opp | Kinesisk | Spansk]

Arabic Newswire A Corpus

CD-ROM

Denne CD-ROMen inneholder artikler fra Agence France Presse (AFP) Arabic Newswire. Korpuset omfatter artikler fra 13. mai 1994 til 20. desember 2000, og inneholder 383 872 dokumenter med 76 millioner ordforekomster og 666 094 ordtyper.

Korpuset er SGML-tagget, og tegnsettet er Unicode (UTF-8).

[Opp | Arabisk]

Topic Detection and Tracking (TDT2) Mandarin Audio Corpus

CD-ROM

Disse 6 CD-ROMene inneholder Topic Detection and Tracking (TDT) 2 Mandarin Audio Corpus. Korpuset inneholder daglige opptak av nyhetssendingene Voice of America over en periode på 6 måneder (februar - juni 1998). Lydfilene er i SPHERE-format.

[Opp | Kinesisk]

Topic Detection and Tracking (TDT2) Careful Transcription Audio Corpus

CD-ROM

Disse to CD-ROMene inneholder opptak av engelskspråklige nyhetssendinger fra 1998. Opptakene er fra følgende kilder:

ABC News
Cable News Network (CNN)
Public Radio International (PRI)
Voice of America (VOA)

Transkripsjoner er tilgjengelige i nettet.

[Opp | Engelsk]

Speech in Noisy Environments (SPINE) Evaluation Audio

CD-ROM

Disse 4 CD-ROMene inneholder Speech in Noisy Environments (SPINE) Evaluation Audio Corpus. Korpuset hører sammen med Speech in Noisy Environments (SPINE) Evaluation Transcripts. Disse korpusene var materiale for evalueringen 2000 Speech in Noisy Environments (SPINE1). Korpuset inneholder 120 filer med én samtale hver, og utgjør ca. 9 timer og 22 minutter (2,2 GB) audiodata.

[Opp | Engelsk]

TREC Mandarin Text REtrieval Conference - Mandarin Newswire

CD-ROM

Denne CD-ROMen inneholder TREC ("Text REtrieval Conference") Mandarin Corpus som ble brukt for kinesisk-oppgaven i TREC 5-6, og består av ca. 170 MB med artikler fra avisen People's Daily og nyhetsbyrået Xinhua, formatert til å inneholde TREC dokumentidentifikasjon.

[Opp | Kinesisk]

Speech in Noisy Environments (SPINE) Evaluation Transcripts

Filsamling

Denne filsamlingen inneholder Speech in Noisy Environments (SPINE) Evaluation Transcripts. Korpuset hører sammen med Speech in Noisy Environments (SPINE) Evaluation Audio Corpus. Disse korpusene var materiale for evalueringen 2000 Speech in Noisy Environments (SPINE1). Evalueringsdataene omfatter tjue par av samtalepartnere, med seks femminutters samtaler per par (ca. 600 minutter totalt), fra et sett av fire samtalesituasjoner.

[Opp | Engelsk]

Chinese Treebank Final Release

Filsamling

Denne filsamlingen inneholder Chinese Treebank i endelig versjon. Korpuset er syntaktisk tagget, og består av ca. 100 000 ord fordelt på 4185 setninger i 325 filer. Materialet er 325 artikler fra nyhetsbyrået Xinhua.

[Opp | Kinesisk]

Voice of America (VOA) Czech Broadcast News Audio

CD-ROM

Disse 6 CD-ROMene inneholder ca. 30 timers opptak av tsjekkiske nyhetsmeldinger fra radiosendingen Voice of America. Materialet er fordelt på 62 filer i SPHERE-format, som hver dekker en 30 minutters radiosending. Opptakene ble gjort mellom 9. februar og 28. mai 1999.

Transkripsjoner i UTF-format er tilgjengelige i nettet.

[Opp | Tsjekkisk]

Speech in Noisy Environments (SPINE) Training Audio

CD-ROM

Disse 4 CD-ROMene inneholder Speech in Noisy Environments (SPINE) Training Audio Corpus laget for Department of Defense (DoD) Digital Voice Processing Consortium (DDVPC) av Arcon Corp. og produsert av Linguistic Data Consortium. Korpuset er ment å bli brukt til å evaluere talegjenkjenning under støy, særlig militær støy, og inneholder taledata fra samtaler mellom personer som samarbeider i et simulert militært angrep.

Korpuset inneholder ca. 12 timers tale. Transkripsjoner er tilgjengelige i nettet.

[Opp | Engelsk]

1999 HUB-4 - Broadcast News Evaluation - English Test Material

CD-ROM

Denne CD-ROMen inneholder det engelske evaluerings-/testmaterialet som ble brukt i 1999 NIST Broadcast News Transcription Evaluation, arrangert av NIST Spoken Natural Language Processing Group og produsert av Linguistic Data Consortium. Testmaterialet består av nyhetsmeldinger på radio, og ligger i to lydfiler i SPHERE-format som hver inneholder halvannen times tale. Transkripsjoner av materialet er også inkludert.

[Opp | Engelsk]

Korean Newswire

CD-ROM

Denne CD-ROMen, utgitt av Linguistic Data Consortium, inneholder nyhetsmeldinger fra Korean News Agency datert 2. juni 1994 til 20. mars 2000. Filene er SGML-tagget og er skrevet med KSC-5601 koreansk tegnsett.

[Opp | Koreansk]

1998 HUB-4 - Broadcast News Evaluation - English Test Material

CD-ROM

Denne CD-ROMen inneholder evaluerings-/testmaterialet som ble brukt i 1998 DARPA/NIST Continuous Speech Recognition Broadcast News Hub-4 English Benchmark Test, arrangert av NIST Spoken Natural Language Processing Group og produsert av Linguistic Data Consortium. Testmaterialet består av nyhetsmeldinger på radio, og ligger i to lydfiler i SPHERE-format som hver inneholder halvannen times tale fra henholdsvis 1996 og 1998. Transkripsjoner av materialet er også inkludert.

[Opp | Engelsk]

Hong Kong News Parallel Text

Filsamling

Disse filene inneholder Hong Kong News Parallel Text, produsert av Linguistic Data Consortium. Tekstene består av parallelle kinesiske og engelske nyhetsmeldinger fra departementet for nyhetstjenester i Hong Kong Special Administrative Region (HKSAR). Korpuset inneholder ca. 18 000 nyhetsmeldinger på hvert språk.

[Opp | Flerspråklige korpus]

Hong Kong Laws Parallel Text

Filsamling

Disse filene inneholder Hong Kong Laws Parallel Text, produsert av Linguistic Data Consortium. Tekstene ble lastet ned fra http://www.justice.gov.hk, det tospråklige (kinesisk/engelsk) nettstedet til justisdepartementet i Hong Kong Special Administrative Region (HKSAR), i januar 1999. Korpuset inneholder ca. 300 000 setninger fra parallelle kinesiske og engelske tekster.

[Opp | Flerspråklige korpus]

Hong Kong Hansards Parallel Text

CD-ROM

Denne CD-ROMen inneholder Hong Kong Special Administrative Region (HKSAR) Hansards Corpus, produsert av Linguistic Data Consortium. Korpuset består av utdrag fra transkripsjoner av møter i det lovgivende rådet i HKSAR fra oktober 1995 til april 2000, og inneholder parallelle tekster på kinesisk og engelsk. De engelske tekstene består av 11,9 millioner ord, mens de kinesiske inneholder 36,3 millioner kinesiske tegn.

[Opp | Flerspråklige korpus]

The Penn Treebank Project - Release 3

CD-ROM

Penn Treebank 3 er en fortsettelse av Treebank 2, og inneholder følgende elementer av sistnevnte:

En million ord med tagget tekst fra Wall Street Journal (1989)
En liten mengde tagget tekst fra ATIS3-korpuset (transkribert tale)
En tagget versjon av Brown Corpus (1 million ord)

I tillegg inneholder versjon 3 følgende nye materiale:

En tagget versjon av Switchboard-korpuset (transkribert talespråk)
En parset versjon av Brown Corpus

[Opp | Engelsk]

Spanish Newswire Text Corpus

CD-ROM

Dette korpuset er en fortsettelse av Spanish News Text, og består av data fra følgende tre formidlere av elektroniske nyheter:

Kilde	Periode
Agence France Presse	13. januar 1996 - 31. desember 1998
Associated Press Worldstream	1. januar 1997 - 31. august 1998
El Norte	1. januar 1997 - 31. desember 1998

Tekstene er SGML-merket med følgende markører (i tillegg til noe annen markering for overskrifter, bylines, dato i mer varierende grad):

<DOC> / </DOC>	- markerer artikkelgrenser
<DOCID> / </DOCID>	- angir en unik identifikasjon for hver enkelt artikkel
<TEXT> / </TEXT>	- markerer brødteksten i hver artikkel
<P> / </P>	- markerer avsnitt i artiklene (eneste markering av brødteksten)

Det finnes dessverre ikke informasjon om størrelsen på korpuset, men det dreier seg om adskillige (et tresifret antall) millioner ord.

[Opp | Spansk]

Portuguese Newswire Text Corpus

CD-ROM

Dette korpuset inneholder de portugisiske dataene fra European Language News Corpus, elektroniske nyhetstekster fra Agence France Presse, perioden 13. mai 1994 - 26. juni 1996, i tillegg til nye data fra samme kilde fra perioden 27. juni 1996 - 31. desember 1998.

Dataene består av ren tekst, men SGML-tagging er blitt brukt for å angi artikkelgrenser. Korpuset inneholder en fil pr. dato for innsamling. Det finnes ingen informasjon om den eksakte størrelsen på korpuset, men det er rimelig å anta at det dreier seg om en tekstmengde på pluss/minus 30 millioner ord.

[Opp | Portugisisk]

TDT2 Text Data and Tables - English and Mandarin

CD-ROM

TDT Topic Detection and Tracking er en automatisk metode for å finne emnemessig relatert materiale i ulike typer tekst. Dette korpuset er ment som et treningskorpus for et slikt system, og bestå av tekster på engelsk og mandarin i ulike formater for bruk i systemet. Dette inkluderer også ren tekst-format (med noe SGML-markering. Det dreier seg utelukkende om nyhetstekster fra ulike medier (tv, radio, internett, aviser).

Dataene kommer fra følgende kilder:

American Broadcasting Company (ABC)
Associated Press (AP)
Cable News Network, Inc. (CNN)
New York Times
Public Radio International (PRI)
Voice of America (VOA)
Xinhua News Agency
ZaoBao News

Alle dataene er samlet inn daglig over en periode på, seks måneder, januar til juni 1998. Det foreligger ingen informasjon om mengden av data. Det ligger mer informasjon på CD-plata.

Se forøvrig også

TDT-2 English Text Corpus

[Opp | Engelsk | Kinesisk]

Tactical Speaker Identification Speech Corpus

CD-ROM

Dette korpuset inneholder opptak av 35 talere (4 kvinnelige og 31 mannlige) som ble gjort med en rekke forskjellige radiosendere og radiomottakere. Talerne utførte følgende oppgaver:

lese opp en liste med setninger fra TIMIT-korpuset
lese opp en liste med tallsekvenser
gi instruksjoner for hvordan man kommer seg fra ett sted til et annet ved hjelp av kart (unscripted map task)

[Opp]

TDT-2 English Text Corpus

CD-ROM

Dette korpuset ble laget for å støtte Topic Detection and Tracking (TDT), en betegnelse som refererer til automatiske teknikker for å finne emnemessig relatert materiale i tekster. Korpuset består av tekstbaserte nyhetsmeldinger og nyhetssendinger i tv og radio, og materiale til korpuset ble hentet hver dag i seks måneder fra følgende kilder:

Tekstbaserte nyhetsmeldinger:
- New York Times
- Associated Press
Tv-sendinger:
- CNN Headline News
- ABC World News Tonight
Radiosendinger:
- PRI The world
- VOA English News Service

Tekstene er merket med informasjon om emnene de omhandler.

[Opp]

Speech Under Simulated and Actual Stress (SUSAS)

CD-ROM

Denne CD-ROMen består av en database som er delt inn i fem domener som omfatter et vidt spekter av følelser og stress. Totalt 32 personer (13 kvinner og 19 menn), i alderen 22 til 76 ble brukt for å generere i overkant av 16.000 ytringer. SUSAS inneholder også flere lengre talefiler fra fire piloter på Apache-helikoptre. Disse talefilene er transkribert av LDC og er tilgjengelige via ftp.

[Opp]

COMLEX English Syntax Lexicon

Filsamling

Dette er et engelsk leksikon med moderat omfang (38 000 leksemer) utviklet ved New York University med støtte fra Linguistic Data Consortium. Leksikonet inneholder detaljert informasjon om de syntaktiske egenskapene til hvert leksem og er spesielt detaljert med hensyn til subkategorisering (argumentstruktur).

[Opp | Engelsk]

North American News Text Corpus (Supplement) and AP Worldstream English

CD-ROM

Denne utgivelsen (2 CD-ROMer) av North American News Text er et supplement til LDCs tidligere utgivelser av liknende materiale. Den inneholder nyhetstelegrammer fra New York Times News Service og fra Los Angeles Times - Washington Post News Service. Begge disse nyhetstjenestene inkluderer en blanding av nyheter og kommentarer fra en rekke regionale amerikanske aviser, i tillegg til nyheter fra de store avisene som tilbyr nyhetstelegrammer.

I tillegg til kildene ovenfor inkluderer denne utgaven også den engelskspråklige delen av Associated Press Worldstream newswire service. Dette er den første utgivelsen fra LDC av denne typen materiale. Innholdet stammer hovedsaklig fra kilder utenfor USA, reporternes nasjonalitet varierer, men stedene og temaene er mye mer internasjonale sammenlignet med de nordamerikanske telegramtjenestene. Her finner man rapporter fra Asia, Afrika og Europa som sjelden eller aldri dukker opp i nordamerikanske aviser, inkludert politiske -, økonomiske - og sportsnyheter som hovedsaklig er rettet mot engelskspråklige i disse deler av verden.

Kildene og tidsperioden som er dekket i denne samlingen er som følger:

Kilde:	Tidsperiode:
Los Angeles Times & Washington Post	1. September, 1997 - 30. April, 1998
New York Times News Service	1. Januar, 1997 - 30. April, 1998
Associated Press Worldstream	11. November, 1994 - 30. April, 1998

Materialet fra L.A. Times/Washington Post og New York Times ligger på Disc 1, mens materialet fra AP Worldsrtream ligger på Disc 2.

[Opp | Engelsk]

Voicemail Corpus Part 1 - Speech and Transcripts

CD-ROM

Dette er CD-ROM-utgaven av Voicemail-korpuset som er samlet inn fra frivillige på forskjellige IBM-lokaliteter i USA og publisert av LDC. Korpuset består av 1801 meldinger (ca. 62% kvinnelige og 38% mannlige) som utgjør treningssettet, og 42 meldinger i utviklingssettet. Den gjennomsnittlige voicemail-meldingen er på 31 sekunder og inneholder ca. 100 ord. Alle beskjedene er transkribert av IBM.

1997 Mandarin Broadcast News Speech Corpus (Hub-4NE)

CD-ROM

Dette korpuset består av 8 CD-plater samt transkripsjoner som er tilgjengelige i nettet. CD-ROMene inneholder en del av det akustiske materialet som skal utgjøre treningssettet for 1997 DARPA HUB-4 Mandarin Benchmark.

De fleste av lydfilene består av ca. 30 minutters opptak, mens noen inneholder 60 eller 120 minutter med opptak av sendinger fra CC-TV, KAZN-AM eller Voice of America.

Transkripsjonene er laget i standard SGML-format og det finnes god dokumentasjon på hvordan man kan benytte seg av disse filene, samt hvordan filene er organisert og hvor de stammer fra (h4m_tran.doc). Mer dokumentasjon finner du her (kommer opp i eget vindu):
Mandarin word division priciples
Conventions for Mandarin segmentation
Design Specifications for the Transcription of Spoken Language

[Opp | Kinesisk]

CSR 1996 Language Model - Broadcast News Archive

CD-ROM

Dette settet (2 CD-ROM-plater) inneholder data fra transkriberte nyhetssendinger, beregnet for bruk i den grunnleggende språkmodellen for the 1996 CSR Hub 4 Evaluation, tilsammen nærmere 1,4 gigabyte materiale ukomprimert.

Informasjon om filenes struktur o.l. finnes på CD-platene.

[Opp | ]

Hub-5 Spanish Telephone Speech Data

CD-ROM

Disse CD-ROM-platene inneholder lydfiler samt nødvendig dokumentasjon, blant annet beskrivelse av transkripsjonskonvensjonene (i filen "hub5_sp.doc").

Hub-5 Spanish består av 106 telefonsamtaler tatt fra CallFriend Spanish. Transkripsjonene dekker segmenter på 10-30 minutter fra samtaler på opptil 30 minutter. Transkripsjonene er tilgjengelige i nettet.

[Opp | Spansk]

Hub-5 Mandarine Telephone Speech Data

CD-ROM

Disse to CD-ROM-platene inneholder lydfiler samt nødvendig dokumentasjon, blant annet beskrivelse av transkripsjonskonvensjonene (i filen "hub5_man.doc").

Hub-5 Mandarin består av 42 telefonsamtaler tatt fra CallFriend Mandarin. Transkripsjonene dekker segmenter på 5-30 minutter fra samtaler på opptil 30 minutter. Transkripsjonene er tilgjengelige i nettet.

[Opp | Kinesisk]

Taiwanese Putonghua Corpus (TWPTH) - Speech and Transcripts

CD-ROM

Dette settet, bestående av 2 CDer, med taiwansk aksentuert Putonghua (PTH) er spilt inn i Taiwan i tidsrommet desember 1994 - januar 1995. Taiwansk aksentuert PTH refererer til PTH talt av mennesker som er født i Taiwan og hvis førstespråk er taiwansk (Southern Min). Totalt 40 personer var med på prosjektet, og materialet består av 5 dialoger og 30 monologer. Dialogene varer ca. 20 minutter hver, mens monologene varer rundt 10 minutter hver. Opptakene ble gjort i vanlige, men rolige, rom og personene ble bedt om å snakke i en konverserende stil, uten notater, om et valgfritt tema.

[Opp | Kinesisk]

KING Speech Corpus

CD-ROM

Dette er et talespråkskorpus på cd-rom fra Linguistic Data Consortium . KING-korpuset ble satt sammen med hensyn på forskning innenfor området tekstuavhengig taleridentifikasjon og -verifikasjon (og da spesielt over telefonlinjer). Dataene er samlet inn hos ITTDCD-West i San Diego, California, og på ITTDCD-East i Nutley, New Jersey. Alle forsøkspersonene er mannlige ansatte hos ITT, og korpuset inneholder ti korte utdrag av samtaler med hver av dem, 26 fra San Diego og 25 fra New Jersey. Hver samtale inneholder 30 til 60 sekunder med tale.

Materialet ble samlet inn ved at man fra et laboratorium ved ITT ringte ut og fikk opprettet en rikstelefonlinje ("long distance line") som gikk inn til laboratoriet igjen. Man brukte et standard telefonapparat. Forsøkspersonenes telefon var i tillegg utstyrt med en ekstra mikrofon, slik at to parallelle opptak ble gjort av det de sa. Det ene opptaket - fra den ekstra mikrofonen - inneholder veldig ren tale, mens det andre naturligvis har med de forstyrrelser som finnes på telefonlinjer. Dette er en forutsetning for utvikling av systemer som skal fungere i slike omgivelser. Det forsøkspersonens samtalepartner sa, ble ikke spilt inn, slik at materialet ikke er istand til å imitere ordinær toveis telekommunikasjon.

Nesten alle forsøkspersonene har engelsk som morsmål, og mens mennene fra DCD-East stort sett snakker dialekter fra området rundt New York, snakker mennene fra DCD-West mer varierte dialekter.

Forsøkspersonene ble gitt et av fem forskjellige emner ("elicitation tasks") i den mening å lokke frem naturlig, flytende tale. Selv om det eneste som ble spilt inn var forsøkspersonens del av samtalen, prøvde man å holde samtalepartnerens deltagelse på et minimum.

Beskrivelse av de forskjellige "elicitation tasks":

Leketøy: Innebærer bruk av et byggesett laget av plastkomponenter. Forsøkspersonen skal beskrive det han ser osv.
Former og figurer: Forsøkspersonen gis tolv kort, hvert med en abstrakt figur på. Igjen går det på beskrivelse.
Konversasjon: Dette er en fri samtale. Forsøkspersonen oppfordres til å beholde ordet, utdype, presisere det han sier osv.
Billøp: Her får forsøkspersonen utdelt et kart over ruten til et billøp, hvor det mangler 13 stedsnavn. Han må spørre samtalepartneren, som ber om presiseringer.
Fotografier: Forsøkspersonen ser på noen fotografier, og samtalepartneren stiller ham forskjellige spørsmål. Han blir bedt om å beskrive dem, fortelle hva han ser etc.
Tegneserier: Først får forsøkspersonen utdelt en del tegneseriestriper hvor dialogen mangler, hvorpå han blir bedt om å rekonstruere denne rute for rute med egne ord.

De forskjellige samtalene ble avbrutt etter ca. fem minutter. Deretter plukket man ut deler av samtalene etter bestemte kriterier; lange, uavbrutte fraser og setninger ble valgt ut først, mens lange pauser ble strøket. Til slutt satt man igjen med 30 til 60 sekunder aktiv samtaletid.

Tekniske spesifikasjoner angående hva slags utstyr etc. som ble brukt, og hvordan opptakene var organisert, både praktisk og teknisk, finnes spesifisert i readme-filer på cd-platen.

Litt om det som er av talespråksdata: Det ble altså gjennomført 10 opptak av hver av de 51 forsøkspersonene (det mangler noen få filer, i alt ti stk.), redigert til 30 - 60 sekunder aktiv taletid pr. opptak. Hvert av opptakene ble gjort med bruk av to forskjellige opptakssystemer; de to forskjellige opptakene av samtalene er ordnet i separate mapper på cd-platen. Under hver av disse mappene er det ti mapper, en for hver av opptakssekvensene, og under disse igjen finnes det en lydfil for hver forsøksperson under denne sekvensen. I tillegg til disse dataene finnes det tekstfiler, med ortografisk transkripsjon av hver enkelt samtale, ordnet og strukturert på samme måte som ovennevnte filer. En ting som mangler er fonetiske transkripsjoner og tidsrelatering av transkripsjonene til lydmaterialet, slik at dette kunne ha vært enklere å segmentere og bearbeide på forskjellige måter. Dette ble opprinnelig gjort, men var så dårlig gjennomført at det ikke ble tatt med på denne utgivelsen.

[Opp | Engelsk]

CSR-III: North American Business News

CD-ROM

Dette korpuset på cd-rom fra Linguistic Data Consortium inneholder talespråksdata på amerikansk engelsk (AE). Dataene er samlet inn som del av et større prosjekt for utvikling av et taleruavhengig automatisk talegjenkjenningssystem med stort vokabular. LDC har før og etter denne utgivelsen publisert flere korpora innenfor dette prosjektet, som er et samarbeid med ARPA (Advanced Research Projects Agency), et statlig organ i USA for fremme av forskning.

Korpuset inneholder forskjellige subkorpora for implementering av tester for det talegjenkjenningssystemet (CSR - Continious Speech Recognition) som er under utvikling; "November 1994 ARPA CSR Hub and Spoke Benchmark Tests". Testene kjøres for videreutvikling av systemet og for å evaluere dets ytelse.

Talespråksdataene er samlet inn på flere måter, ved bruk av ulike mikrofontyper og er delt inn etter hva de er intendert brukt til i prosjektet. Som nevnt brukes de som utviklings- og evalueringstestmateriale. Dette igjen er delt inn i "hubs" og "spokes". En "hub" brukes som basis for å måle gjenkjennelsesgraden, mens en "spoke" måler effekten av varierende forhold ved dataene, det være seg lydforhold og forskjellige strategier for bearbeiding av dataene i systemet i forhold til vanlige strategier.

Dataene er samlet inn ved hjelp fra 180 forsøkspersoner, valgt for å gi balanse med hensyn på alder, kjønn og utdanningsnivå etter en bestemt avveining. Hver av disse forsøkspersonene leser et sted mellom 20 og 40 setninger, avhengig av hva de selv valgte å ta del i under datainnsamlingen. I tillegg inneholder korpuset noe spontan tale fra journalister som på bakgrunn av avisartikler gjenforteller eller kreerer egne historier.

I tillegg til lydfilene finnes ortografiske transkripsjoner av det som blir sagt. Dessuten inneholder korpuset mengder av dokumentasjon, samt noe UNIX-basert programvare, nødvendig hvis materialet brukes til talegjenkjenning.

Setningene som leses, stammer fra forskjellig nordamerikanske aviser og nyhetstjenester; Reuters News Service, New York Times, Washington Post, Los Angeles Times og Wall Street Journal. Alle tekstene omhandler økonomi og finanser, og er skrevet i perioden april til juni 1994.

Litt mer om dette CSR-prosjektet; andre korpora, gitt ut av LDC på cd-rom som del av dette prosjektet, er;

CSR-I; 40 timer lest tekst fra Wall Street Journal
CSR-II; 73 timer WSJ-tekster
CSR-III Text; språkmodell, tekster
CSR-IV Hub-3; test-korpus
CSR-IV Hub-4: test-korpus
CSR-IV Hub-4; 1997 Broadcast News Speech Corpus
CSR-V Hub-4; 1996 Broadcast News Speech Corpus

Særlig viktig i forbindelse med dette korpuset er "CSR-III Text", et tekstkorpus med alle tekster som er brukt i testene, samt programvare og språkmodell. Nye utgivelser er under utvikling.

[Opp | Engelsk]

The TRAINS Spoken Dialog Corpus

CD-ROM

Denne cd-romen fra Linguistic Data Consortium inneholder et korpus med kontekstspesifikk dialog. Disse dialogene ble samlet som en del av det større TRAINS-prosjektet, et prosjekt satt igang ved University of Rochester for å utvikle et datasystem for talespråksgjenkjennelse som konversasjonelt sett er fullt på høyde og kan hjelpe brukeren til å forme en plan for å løse et spesifikt problem. For TRAINS dreier det seg om å planlegge gjennomførbare prosjekter innenfor området produksjon og frakt av varer i et transportsystem for jernbanegods.

Innsamlingen av data ble lagt opp slik at man kom så nært opp til en samtale mellom menneske og datamaskin som mulig, der en person spiller datasystemets rolle, allikevel uten å skape en altfor kunstig situasjon. Slik har man avsett å gi et blikk inn i en ideell menneske-datamaskin-interaksjon; et system i stand til å delta i en løpende samtale. For å kunne utvikle noe i denne retning må man vite hva som kan komme opp av vanskeligheter, hva slags dialog en vil få under slike forhold og ikke minst hvordan en kan hanskes med det som måtte oppstå av problemer.

Mye av intensjonen bak dette prosjektet er studiet av strukturen til naturlig interaktiv dialog, der alt skjer i nuet; man har ikke tid til å tenke seg særlig godt om, men snakker lett feil, repeterer seg selv, retter på det en akkurat har sagt, omformulerer og snakker ofte i ufullstendige setninger. Siden korpuset inneholder dialog der samtalepartnerne hele tiden må samarbeide for å komme frem til en løsning, gis det naturlige eksempler på problemer som et datasystem blir stilt ovenfor og må kunne løse hvis det skal kunne være i stand til å føre en dialog med en bruker.

Korpuset kan brukes til lingvistisk forskning innenfor feltet talespråksanalyse, f.eks. talespråksgjenkjennelse og prosodisk analyse. Det burde også kunne passe for studier av problemløsningsstrategier, hvordan man samarbeider for å løse en bestemt oppgave. Det finnes også en rekke andre muligheter for anvendelse av dette materialet; studier av diskursstruktur, talehandlingsanalyse, mer detaljerte studier av "turn-taking", studier av intonasjonseffekt osv. Se TRAINS- prosjektets hjemmeside, som inneholder oppdatert informasjon om prosjektets utvikling frem til idag, eller les readme-filene på cd-platen for mer om grunnlaget for hele prosjektet, spesielt filen dialogs.tex;1, hvor det også finnes spesifikasjoner angående tekniske ting, hva slags utstyr som er benyttet etc.

Datainnsamlingen foregikk i et lydstudio. De to deltakerne fikk utdelt sine respektive instrukser, samt et kart som beskrev det de hadde å forholde seg til av jernbanelinjer, avstander og tidsbegrensninger. En opptakssekvens varte i tretti minutter, og forsøkspersonene løste mellom to og sju oppgaver på denne tiden. Avhengig av hvor bra de løste oppgavene og hvor mye tid som var igjen, økte vanskelighetsgraden etterhvert.

Hele korpuset består av ialt 98 dialoger, og disse er satt sammen ved bruk av 20 forskjellige oppgaver som skal løses. Dialogene inneholder tale fra 34 forsøkspersoner. Dette utgjør de empiriske data i dette korpuset; tilsammen omlag seks og en halv time med tale, 5900 ytringer og ca. 55000 ord.

Cd-platen inneholder en mappe, dialogs, der hver enkelt dialog er lagret i en separat mappe, som består av en lydfil pluss både en ord- og en fonetisk transkripsjon av dialogen, som er presist relatert i tid til lydfilen ved hjelp av tidsmarkører som er lagt til automatisk. Dessuten finnes flere andre transkripsjoner, der tidsmarkeringen er variert; hver enkelt deltagers ytringer, alle ord i en deltagers ytringer osv. Denne tidsmarkeringen er gjennomført for at man ved hjelp av et lydprogram med redigeringsfunksjoner skal kunne gå inn i lydfilen på bestemte punkter og plukke ut de passasjene man vil ha. I mappen transcripts finnes i tillegg en fil for hver dialog, med en råtekstversjon av alle dialogene.

[Opp | Engelsk]

ATIS3 - Part 2 (Air Travel Information System)

CD-ROM

På disse to cd-romene fra Linguistic Data Consortium finnes det kontekstspesifikke, spontane talespråksdata innenfor domenet ATIS (Air Travel Information System), et informasjonssystem for flytrafikk. Materialet er ment til anvendelse for utvikling av datasystemer som forstår talespråk. Cd-platene inneholder data for bruk til testing av det systemet som inntil denne utgivelsen er blitt utviklet.

Språkdataene består av ca. 2000 ytringer fra 25 forskjellige forsøkspersoner og det finnes ordtranskripsjoner av alt de sier. Disse ytringene er på forhånd spesifiserte oppgaver som systemet settes til å løse. I tillegg finnes mye informasjon om materialet, forsøkspersoner, deres dialekt, uregelmessigheter i materialet etc.

Korpuset er egentlig del 2 i tredje fase av et prosjekt kalt the Advanced Research Projects Agency - Spoken Language Technology Program ( ARPA-SLTP) for utvikling av avansert datateknologi som kan behandle menneskelig talespråk. ATIS-prosjektet er tidligere dokumentert på andre cd-rom-utgivelser fra LDC i samarbeid med NIST (National Institute of Standards and Technology) og MADCOW (Multi-site Atis Data COllection Working group).

Målet for prosjektet har hele tiden vært å utvikle stadig bedre korpora for bruk til både utvikling av talespråksgjenkjennende systemer og forskning i naturlig språk ved bruk av (kontekstspesifikk) spontan tale istedenfor "lest" tale. Domenet som ble valgt var altså ATIS: I alle ATIS-korpora henvender en bruker seg til et simulert eller prototypisk, rudimentært talegjenkjenningssystem med en oppgave som systemet må løse utifra det det "vet". På den første utgaven brukte man manuskript, men senere har man gått over til å la forsøkspersonene formulere seg selv spontant.

Systemet besitter informasjon om flytrafikk i form av en database som bygger på "the Official Airline Guide". For å måle systemets ytelse og feilprosent til enhver tid, uttrykkes systemets svar i logisk form på et språk kalt "the Canonical Answer Specification" (CAS ), og sammenlignes med svar gitt av mennesker. Etterhvert har man utviklet bedre og forandrede systemer; med flere forsøkspersoner, større database og forskjellige rutiner for å samle inn data, slik at grunnlaget skal bli så bredt som mulig.

[Opp | Engelsk]

NYNEX Phonebook Telephone Speech Corpus

CD-ROM

NYNEX Phonebook er et korpus på cd-rom fra Linguistic Data Consortium. Det er en samling av nærmere 94000 isolerte ett-ords ytringer på amerikansk engelsk (AE), noe som tilsammen utgjør omlag 23 timer med talt språkmateriale. Disse ett-ords ytringene er generert fra en ordliste bestående av ca. 8000 forskjellige ord, og er samlet inn ved hjelp av 1358 forsøkspersoner, som uttaler opptil 76 ord hver.

Meningen med dette korpuset er at det skal tjene som en stor database med ord på AE, med alle fonemer i så mange forskjellige fonetiske omgivelser både når det gjelder segmenter og trykk som man kan regne med gir forskjellige allofoner (koartikulatoriske varianter). Korpuset er utviklet for trening av automatiske talespråksgjenkjennende systemer som opererer på telefonlinjer, der gjenkjennelse av stikkord er veldig viktig. I tillegg kan korpuset ha interesse for fonetikere og fonologer. Det er store forskjeller på telefonopptakenes tekniske kvalitet.

Dataene til korpuset ble samlet inn ved at forsøkspersonene ble tilskrevet etter en liste fra et markedsundersøkelsesfirma. Dette skjedde på en slik måte at man fikk en representativ gruppe for den amerikanske befolkning med hensyn på kjønn og demografisk spredning; geografisk og i forhold til bosettingsmønster, alder (over 18), inntekt, utdanning og sosio-økonomisk status. Forsøkspersonene ringte så en automatisk telefontjeneste, hvor de ble forklart hva de skulle gjøre. Alle var utstyrt med en ordliste, som ble lest opp og spilt inn automatisk via telefon.

Den komplette ordlisten ble laget med tre mål for øyet;

den skulle være så kompakt som mulig, samtidig som den
inneholdt alle fonemer (man gikk utifra et foneminventar på 42 for AE) i tilstrekkelig forskjellige omgivelser til at man fikk dekket alle signifikante allofoner, og
bare inneholdt ord, hvis uttalemåte ikke kunne misforstås, og som var ventet å være en del av den vanlige amerikaners ordforråd.

Alle ord som kunne være problematiske eller skape forvirring ble fjernet, det være seg fremmedord, spesielt vanskelige og infrekvente ord, ord med flere uttalemåter, "fy-ord", kortord etc. Ord ble valgt ut også med hensyn på artikulatoriske forhold når det gjelder plassering i stavelsen; forbundet med dette er trykkforhold og akustiske fenomener. Etter denne grovsorteringen brukte man et dataprogram som genererte den endelige ordlisten etter en bestemt algoritme, og endte opp med en ordliste på 7979 forskjellige ord.

Ordlisten ble så delt opp i 106 mindre lister, og de forskjellige forsøkspersonene leste altså en av disse listene inn over telefon, sammen med noen spontane data (de ble bedt om å lese fritt valgte sekvenser av tall). Disse ble tatt med utifra den tanke at når man først hadde så mange forsøkspersoner med i datainnsamlingen, kunne det lønne seg også å få med en del spontane ytringer, fordi dette, og spesielt i forbindelse med tall, kan være svært nyttig når det gjelder effekten av spontan tale innenfor automatiske talespråksgjenkjennelsessystemer.

Til slutt ble endel ytringer og hele forsøkspersoner strøket fra materialet etter bestemte kriterier (utenlandsk aksent, talefeil, mye bakgrunnsstøy, mye feil og tull), før alt materialet ble transkribert. Det man gikk etter som mal var å fange inn fonetisk og fonologisk variasjon for AE når forsøkspersonene forsøkte å realisere det samme fonemiske mål. Slik ville man dokumentere dialektal og regional variasjon, hvilke reduserte varianter av fonemer som finnes i hvilke omgivelser, forskjellig vokalkvalitet i stavelseskjerner osv.

Alle tre cd-plater er strukturert på samme måte, med enkelte forskjeller; på cd1 og cd2 er dataene fra ordlistene som ble laget på forhånd lagret (read_sp), mens på cd3 ligger dataene fra de spontane ytringene (spon_sp). Under disse mappene ligger nye mapper med en kode som viser hvilken av ordlistene forsøkspersonene i denne mappen har lest. Hver person har så sin egen mappe på det tredje nivået (med koder som identifiserer hver enkelt), og i disse ligger de enkelte lydfilene, en fil pr. ytring, og som nevnt opptil 76 filer pr. person.

I mappen wordlist ligger all nødvendig informasjon om ordmaterialet som ligger til grunn for dataene. Her kan man finne ut hvilke av forsøkspersonene som kan kobles til hvilken av de 106 ordlistene. I tillegg finnes ortografiske og fonemiske transkripsjoner av alle ord i alle ordlister. En readme-fil forklarer bruken av dette nærmere.

Det foreligger også informasjon om enkelte tekniske utilstrekkeligheter ved noe av materialet (release notes.doc;1) og en fil som beskriver hele prosjektet inngående, samt en del teknisk informasjon (final_report.doc;1). Dessuten finnes det på hver cd en liste over alle lydfilene på den aktuelle cd-platen, hvor det er beskrevet hvor de ligger (wave_file.list).

[Opp | Engelsk]

Latino-40 - Spanish Speech Corpus

CD-ROM

Entropic Latino 40 Speech Database ble utviklet hos Entropic Research Laboratory til bruk for å trene opp taleruavhengige talespråksgjenkjennende systemer som kan gjenkjenne latin- amerikansk spansk. Resultatet er dette korpuset på cd-rom fra Linguistic Data Consortium.

Opptakene til korpuset ble gjort i perioden fra 11. juli til 9. september 1994 i Palo Alto, California. Datainnsamlingen foregikk ved at forsøkspersonene leste fra et materiale på 13000 setninger fra latin-amerikanske avistekster etter en bestemt turnus. For hver forsøksperson ble så de 125 første akseptable setningene tatt med i korpuset. Ingen setning er lengre enn 80 tegn, og de er ikke ordnet inn i noen sammenheng (avsnitt, historier e.l.). Forsøkspersonene var betalte frivillige mellom 18 og 59 år, med latin-amerikansk spansk som morsmål.

Språkmaterialet består av omlag 5000 enkeltytringer (setninger), hver ordnet i en egen fil, ca. 125 ytringer fra hver av 40 forskjellige forsøkspersoner, hvorav 20 var kvinner og 20 menn. Hver forsøksperson har under hovedmappen latino 40 en individuell mappe på cd-platen, og under denne mappen er alle hans/hennes ytringer ordnet i hver sin lydfil, altså 125 i tallet pr. person. Det finnes en transkripsjon i råtekst av hver setning.

Cd-platen inneholder mye dokumentasjon og informasjon om kvaliteten på opptakene, opptaksprosedyrer, hva slags utstyr som ble brukt og en del teknisk informasjon; tekniske spesifikasjoner for det benyttede utstyret, opptaksstedets beskaffenhet og bearbeidingen av de innsamlede data. Det finnes også informasjon om hvilke kriterier som lå til grunn for godkjenning av materialet i korpuset, samt data og opplysninger om forsøkspersonene.

[Opp | Spansk]

European Language News Corpus

CD-ROM

Dette korpuset på cd-rom fra Linguistic Data Consortium, kalt European Language News Corpus, inneholder nyhetstekster på fransk, portugisisk og tysk fra flere forskjellige kilder. For fransk finnes det omlag 100 milliomer ord, tysk er representert med ca. 90 millioner ord, mens det er 15 millioner ord med portugisiske tekster.

Omlag 60 millioner ord på fransk og tysk kommer fra Associated Press World Stream (APWS). APWS er et utvalg av nyhetsrapporter fra Associated Press, produsert på 86 nyhetskontorer i 68 forskjellige land. Tekstene er alle fra perioden 1993- 1996. Alle artikler fra en måned presenteres i kronologisk orden, delt inn i filer på ca. 1 Mb i ukomprimert format. Det finnes 189 filer med franske tekster og 265 med tyske.

Agence France Presse (AFP) bidrar med ca. 110 millioner ord, fordelt på alle tre språkene. Tekstene er samlet inn i tidsrommet 1993-1996, og filene er organisert etter dato, med enkelte avvik. det finnes 761 filer for fransk, 758 for tysk og 770 for portugisisk.

20 millioner ord av de tyske tekstene er gjort tilgjengelige av Deutsche Presse Agentur (DPA) i Hamburg. Også disse tekstene er fra perioden 1995-1996. Som for AFP- tekstene er filene organisert etter dato, med enkelte avvik grunnet tekniske problemer. Det finnes ialt 530 filer fra DPA.

Alle disse tre er elektroniske nyhetstjenester, og tekstene er overført til LDC ved Universitetet i Pennsylvania via telefonlinjer eller satelitt.

65 millioner ord av de franske tekstene kommer fra et trykt medium, nemlig avisen Le Monde. Dette materialet består av artikler fra årene 1992 og 1993.

Tekstene er, i varierende grad, avhengig av hvilken kilde de kommer fra, markert med SGML-tekstmarkører (Standard Generalized Markup Language). I alle filer benyttes standard ISO-8859-1 (latin 1) 8-bit tegn.

[Opp | Flerspråklig]

Mandarin Chinese News Text Corpus

CD-ROM

Dette korpuset på cd-rom fra Linguistic Data Consortium inneholder moderne nyhetstekster på mandarin. Korpuset inneholder tekster fra flere forskjellige (journalistiske) kilder:

Renmin Ribao (People's Daily) - avistekster
China Radio International - transkripsjoner av radiosendinger
Xinhua News Agency - elektroniske nyheter

De forskjellige kildene og artiklene dekker et vidt spekter av emner, som internasjonale nyheter, nyheter fra Kina, sport og kultur. Alle tekster er samlet inn av Linguistic Data Consortium, og skriver seg fra årene 1991 - 1996 (Renmin Ribao) og 1994 - 1996 (China Radio International og Xinhua News Agency).

Korpuset har en størrelse på ca. 570 megabyte, tilsvarende omlag 250 millioner kinesiske tegn. Dette er samlet i tilsammen 420 filer, som, avhengig av kilde, er organsiert etter ulike kriterier. 97 % av tekstene er GB-kodet (16-bit) etter et system som brukes i Kina. De resterende 3 % er på ascii-format. Videre er tekstene tagget etter SGML: artikkelgrenser, overskrifter, hoveddelen av teksten og avsnitt er markert med SGML-tekstmarkører. Det finnes også et "hode" til hver artikkel, inneholdende diverse informasjon om artikkelen, f.eks. datoen den sto på trykk, emne og en individuell identifikasjon av hver artikkel. Dette varierer noe med kilde, og det forekommer også variasjoner for hver enkelt kilde.

Før korpuset eventuelt kan tas i bruk, må det bearbeides og klargjøres , da det ikke er tilgjengelig over nettet. Interesserte bes derfor ta kontakt med Tekstlaboratoriet.

[Opp | Kinesisk]

CSR-III: Language Model

CD-ROM

Dette korpuset på cd-rom fra Linguistic Data Consortium er egentlig en del av et større CSR-prosjekt (Continous Speech Recognition), et system for automatisk talegjenkjenning. Prosjektet er et samarbeid mellom LDC og ARPA (Advanced Research Projects Agency), et amerikansk statlig otrgan for fremme av forskning. Dette spesielle prosjektet er dokumentert på en rekke tidligere og senere cd-rom-utgivelser fra LDC (se nedenfor).

Denne utgivelsen inneholder tekstdata av forskjellig karakter, data som er brukt under utviklingen av selve systemet. Først og fremst dreier det seg om språkmodellen (LM - Language Model) som ligger til grunn for systemet. I tillegg til denne inneholder cd-romene alle tekster og programvare som er brukt for å bearbeide dem for bruk til dette prosjektet, samt programvaren som ble brukt for å lage LM.

Tekstdataene er hentet fra forskjellige kilder: Wall Street Journal, Associated Press, San Jose Mercury News. Alle tekster stammer fra perioden 1987 - 1994. De foreligger i to forskjellige versjoner. Den ene versjonen, kalt "sentence-tagged" er markert for hver enkelt setning med en ordinær SGML-markør. Den andre kalles "verbalized- punctuation", hvilket vil si at tall og forkortelser er skrevet ut i full tekst. Dette er nødvendig for å få frem det leksikalske innholdet, ellers vil ikke systemet senere fungere for talt språk. Også tegnsetting i denne versjonen er realisert som tekst (i store bokstaver).

Med korpuset følger også en mengde dokumentasjon om alle tenkelige ting ved prosjektet, feilrapporter og all mulig relevant informasjon.

Litt mer om dette CSR-prosjektet; andre korpora, gitt ut av LDC på cd-rom som del av dette prosjektet, er:

CSR-I; 40 timer lest tekst fra Wall Street Journal
CSR-II; 73 timer WSJ-tekster
CSR-III Speech; test-korpus
CSR-IV Hub-3; test-korpus
CSR-IV Hub-4; test-korpus
CSR-IV Hub-4; 1997 Broadcast News Speech Corpus
CSR-V Hub-4; 1996 Broadcast News Speech Corpus

Særlig viktig i forbindelse med dette korpuset er "CSR-III Speech", et testkorpus til bruk for å teste den språkmodellen som presenteres i dette korpuset. Nye utgivelser er under utvikling og vil sannsynligvis foreligge i løpet av 1997.

[Opp | Engelsk]

The Penn Treebank Project - Release 2

CD-ROM

Treebank Release 2 er et korpus på cd-rom fra Linguistic Data Consortium inneholdende:

1 million ord fra Wall Street Journal (WSJ), parset etter Treebank II-standard.
En liten samling materiale fra ATIS-3 (et annet LDC-prosjekt), parset etter Treebank II-standard
En 300-siders manual for hvordan å bruke Treebank II-parsing, samt retningslinjer for ordklassetagging.
Verktøy for å kunne bearbeide Treebank-data, inkludert en ny versjon av tgrep (en tresøkings- og tremanipuleringspakke)
Alt fra den første Treebank cd-romen (versjon 0.5), med renere versjoner av eldre materiale; Brown Corpus, artikler fra WSJ og ATIS-stoff (markert etter Treebank I-standard).

Treebank er et prosjekt som foregår ved University of Pennsylvania; målet er å bygge opp et stort korpus med tagget og parset materiale ("a bank of trees"). De parser og tagger tekster og transkripsjoner av talespråksmateriale. Mer informasjon om prosjektet finnes på deres hjemmeside på web.

Metoden de bruker for å parse kaller de Treebank II, og denne metoden skal være ekstra godt egnet til å trekke ut enkle predikat-argument-strukturer. I hele korpuset, med unntak av det som er fra Treebank I, er denne Treebank II-stilen benyttet.

I mappen (tagged) finnes ordklassetagget materiale. Denne mappen består av 25 videre mapper, inneholdende ialt 2499 filer tagget materiale, hvorav en inneholder en transkripsjon fra ATIS-3, mens resten er hentet fra WSJ-artikler.

En annen mappe, (parsed) inneholder (nesten) det samme tekstmaterialet, denne gangen i parset variant med markering av syntaktisk struktur; ordklassetagger er ikke med, og det er heller ikke gjort noe forsøk på å lage komplette binære trestrukturer. Dette er det samme, men ikke alt tekstmaterialet fra de taggede filene, fordi man sluttet å parse da man hadde nådd ca. 1 million ord.

Den tredje mappen med språkmateriale, (combined) inneholder en kombinasjon av de to foregående, dvs. at ordklassetaggene er blitt lagt til i de parsede filene. Programmet som ble brukt for å kombinere filene finnes også på cd-romen.

I mappen (raw) ligger alt språkmaterialet i råtekst, ordnet på samme måte som mappene beskrevet ovenfor.

I mappen tgrepabl ligger kodede korpora, laget for å brukes sammen med tgrep (versjon 2.0), et program som kan søke etter konstituenter i trær og manipulere dem på forskjellige måter. Her ligger den parsede varianten av materialet fra WSJ i den ene filen, mens den andre filen består av den kombinerte varianten av WSJ, der også ordklassetaggene er med.

For hver mappe er det readme-filer, som forklarer og beskriver hvordan tagging og parsing er gjennomført; hvem som gjorde det, når de gjorde det, hvor mange ganger det er blitt rettet og forbedret osv. Her finnes også informasjon om feilkilder, reelle feil som fremdeles finnes i materialet, tiltak som ble satt igang for å rette opp de feil man fant, anslagsvise feilprosenter, hva som kan gjøres for å unngå feil, samt annen teknisk informasjon av forskjellig karakter.

Sist men ikke minst finnes det diverse programmer og verktøy som må brukes for å kunne være i stand til å bearbeide og benytte seg av de data som resten av cd-romen har å by på. Dette dreier seg om det før nevnte tgrep (versjon 2.0), som kan brukes for å manipulere og lete frem konstituenter fra trær i filene i tgrepabl-mappen. Dessuten finnes her foruten programmet som la ordklassetaggene inn i de parsede filene for å lage de kombinerte variantene, også et par andre programmer som ble brukt for å lage filer til denne CD-utgivelsen.

Disse programmene ble laget for å brukes på UNIX-systemer. Installering og bruk av programvaren står forklart i readme-filer.

I en egen mappe er det meste av det som fantes på den første utgaven av Treebank samlet, med enkelte forbedringer (versjon 0.75). Dette er ordnet og strukturert på samme måte som det som finnes på den herværende utgaven, med tagged-, parsed-, combined- og raw-filer, samt verktøy til å behandle materialet med.

Treebank 1 består av 1,6 millioner ord parset tekst fra Dow Jones News Service, samt 1 million ord som er ordklassetagget. Dessuten inneholder Treebank 1 den første parsede versjonen av Brown-Corpus, samt tagget og parset materiale fra en del andre kilder. Tagging og parsing er av varierende kvalitet.

[Opp | Engelsk]

Japanese Business News Text

CD-ROM

Dette korpuset på cd-rom fra Linguistic Data Consortium, er en stor samling med japanske tekster, satt sammen av nyheter fra handel, forretningsliv og økonomi i Japan og samlet inn fra to forskjellige kilder.

De er i første rekke hentet fra morgenutgaven av Nihon Kezai Shimbun, Inc., eller NIKKEI, japans største dagsavis innenfor handel og økonomi, med anslagsvis tre millioner lesere. Et arkiv på 188 MB, omtrent 30 millioner ord, er gjort tilgjengelig av utgiveren til forskningsformål. Dataene dekker perioden fra 1. desember 1993 til 30. november 1994. Filene er ordnet og navngitt etter dato, slik at alle tekstene fra en dag ligger i samme fil. Det er ialt 364 filer med tekst fra NIKKEI på cd-platen.

En mindre del av korpuset er hentet fra Dow Jones Telerate/Kyodo News Service. Mottakerne av denne nyhetstjenesten er i hovedsak ledere i japanskeide firmaer, japanske ansatte i store nordamerikanske handelsselskaper, banker, handelsfirmaer med japansk ledelse, og ellers økonomer som følger med i handelsnyheter fra Japan. Tekstene er fra perioden mellom 28. november 1994 og 30. juni 1995, og ordnet på samme måte som for NIKKEI-tekstene (etter dato) i 174 filer.

Enkle SGML-tekstmarkører (Standard Generalized Markup Language) er brukt for å markere artikkelgrenser, ingresser, datoer, avsnitt osv.(alt som er uavhengig av selve teksten). Det er brukt en bokstavkoding kalt EUC (ISO 202022), som er LDCs standard for japansk.

[Opp | Japansk]

Spanish News Text

CD-ROM

Dette er et tekstkorpus på cd-rom fra Linguistic Data Consortium, bestående av store mengder spanske nyhetstekster, tilsammen en mengde på ca. 172 mill. ord. Tekstene er hentet fra;

El Norte (Mexico); ca. 31 mill. ord
Agence France Presse; ca. 44 mill. ord
Associated Press Worldstream; ca. 33 mill. ord
Reuters Latin American Business Report; ca. 23 mill. ord
Reuters Spanish Language News Service; ca. 41 mill. ord

El Norte-tekstene er genuint avisstoff. De andre tekstene er fra leverandører av elektroniske nyheter.

Hver av de fem samlingene ligger i separate mapper. De fire settene med elektroniske nyheter (AFP, APWS og to fra Reuters) er organisert som en fil pr. dag for innsamling. Dataene dekker perioden fra desember 1993 (APWS og Reuters) eller mai 1994 (AFP) til desember 1995. Dataene fra El Norte er gruppert tilfeldig i filer på ca. 1 megabyte. Informasjon om dato for enkeltartikler er ikke tilgjengelig, men samlingen dekker grovt sett 1993.

SGML-tekstmarkører (Standard Generalized Markup Language) er brukt for å markere artikkelgrenser, ingresser etc. og for å markere informasjon som er uavhengig av innholdet i teksten, det være seg overskrifter, bylines, datomarkering, avsnitt etc. I doc-mappen på cd-platen er denne SGML-markeringen forklart for hver enkelt samling ved hjelp av et lite tekstutdrag (fordi markeringen ikke er helt konsistent for alle samlingene).

[Opp | Spansk]

The CELEX Lexical Database - Release 2

CD-ROM

Tysk versjon 2.5
Engelsk versjon 2.5
Nederlandsk versjon 3.1

Denne cd-romen fra Linguistic Data Consortium inneholder rene tekstversjoner av CELEX, en leksikalsk database for engelsk, nederlandsk og tysk. For hvert av de tre språkene finnes det informasjon om følgende emner:

ortografi - (variasjoner i staving, orddeling)
fonologi - (fonetisk transkripsjon, uttalevariasjon, stavelsesstruktur, trykkforhold)
morfologi - (avledninger, sammensetninger, bøyningsparadigmer)
syntaks - (ordklasse, subkategorisering, argumentstruktur)
frekvens - (ordtellinger (leksemer og ordformer) basert på div. tekstkorpora)

Alt det som omhandler ortografi, fonologi, morfologi og frekvens er strukturert i to deler for hvert enkelt av de tre språkene. Den ene delen behandler ordet som leksem (lemma), omtrent slik det er å finne i vanlige ordbøker. Et ord står som representant for et visst antall bøyde former (et paradigme), og informasjonen som gis om ordet gjelder generelt for alle ordets bøyningsformer. F.eks. vil frekvenstellingene her ikke skille mellom et verbs forekomster i presens og preteritum.

Den andre delen er en ordformdatabase. Her ser man ikke lenger på ordet som et ordboksfenomen, men som enkeltord slik det faktisk forekommer i vanlige tekster/tale og ikke som en ideell størrelse. Her er alle morfologiske varianter av et ord med, f.eks. substantiv i både entall og flertall, verb i alle finitte og infinitte former.

Om ortografien finnes det bl.a. informasjon om stavemåte, orddeling, om alternative stavemåter, antall bokstaver, antall stavelser osv. Fonologidelen inneholder naturligvis en fonetisk transkripsjon av det aktuelle ordet, samt opplysninger om stavelsesgrenser, primær- og sekundærtrykk, alternative uttalemåter, konsonant-vokal-mønstre, antall fonemer og stavelser pr. ord og mye annet. For morfologien sin del er sammensetninger og avledninger segmentert i stammer og affikser; det gis informasjon om strukturen i segmenteringen (flate eller hierarkiske representasjoner). Dessuten finnes naturligvis alt om bøyningsmorfologi; om stammer og hvordan de bøyes, hva slags morfosyntaktiske kategorier de kan bøyes i. Man kan finne informasjon om et ords syntaktiske egenskaper, om ordklassen, subkategorisering og argumentstruktur. I frekvensordboken ligger informasjon om ordets frekvens i løpende tekst, både som leksem og ordform, basert på tellinger i eksisterende tekstkorpora.

Problemet med denne databasen og materialet den inneholder, er at filene er svært store (opptil 28 megabyte), og at de dermed er nokså uhåndterlige før de eventuelt er blitt tilrettelagt for bruk.

Men hvis dette først er gjort, skal materialet være greit å benytte seg av. Man kan ved å bruke de verktøy og kommandoer som finnes sammen med materialet, kombinere nær sagt alt det som finnes av informasjon om et bestemt ord fra de forskjellige filene. Informasjon om et ords morfologi kan sammenholdes med det som finnes om fonologien, ortografien, syntaktiske egenskaper og ordets frekvens. Dette gjøres ved hjelp av enkle funksjoner i databasen; man kan velge ut og benytte seg av akkurat den informasjonen man vil ha (eller trenger).

Dataene på hvert språk ligger i en egen mappe, og disse mappene er organisert slik at informasjonen om f.eks. fonologi for leksemene ligger i en fil, fonologi for ordformene i en annen osv. Readme-filer og en stor brukermanual i PostScript-format gir en oversikt over hva som finnes i hver enkelt av dem.

Data fra Celex-databasen er blitt brukt til en rekke forskjellige forskningsprosjekter tidligere. Det har f.eks. dreiet seg om utvelgelse av leksikalske data for ordgjenkjennelsesprosjekter og frekvensbaserte lister over ord, grafemer, fonemer og stavelser. Mer informasjon om Celex kan man finne på deres hjemmeside på web.

[Opp | Flerspråkig]

CTIMIT - Cellular TIMIT Speech Corpus

CD-ROM

CTIMIT er et talespråkskorpus på cd-rom fra Linguistic Data Consortium, og inneholder deler av materiale fra et annet prosjekt (TIMIT Acoustic Phonetic Speech Corpus). Dette er det samme korpuset som FFM TIMIT har hentet sine data fra.

CTIMIT-korpuset ble laget for å skaffe til veie en stor, fonetisk markert database til bruk i fremstilling og utvikling av talespråksprosesserende og talespråksgjenkjennende systemer. Disse er forventet å måtte operere i en rekke forskjellige omgivelser. Det kan f.eks. dreie seg om trådløse telefonnettverk, der det stilles store krav til systemet, ikke minst på grunn av lydforholdene, som kan være av ymse art. Dataene ble samlet inn av medlemmer fra VCI (Voice Communication Initiative) ved Lockheed-Martin Sanders' Signal Processing Center of Technology (SPCOT).

TIMIT-korpuset ble utviklet med tanke på studier innen akustisk fonetikk og for utvikling av automatiske talespråksgjenkjennende systemer. Korpuset inneholder 6300 setninger, 10 setninger fra hver enkelt av 630 forsøkspersoner (70% menn) fra åtte store dialektområder i USA. Setningsmaterialet som ligger til grunn for korpuset består av 2342 forskjellige setninger av tre forskjellige typer;

2 dialektisolerende setninger;
450 setninger, regnet for å være fonetisk kompakte;
1890 setninger av forskjellig fonetisk verdi.

Setningstype (1) ble lest av alle forsøkspersonene (begge setningene forekommer 630 ganger). Av setningstype (2), som inneholder spesielle kombinasjoner av foner (vanskelige eller av spesiell interesse), leste hver forsøksperson fem, og hver setning forekommer syv ganger ((630 X 5) / 450 = 7). Setningene (3) var valgt ut fra eksisterende tekstkilder (bl.a. Brown Corpus) for å gi variasjon i setningstyper og forskjellige fonetiske kontekster. Hver forsøksperson leste tre av disse setningene, og hver forekomst av dem er således unik (630 X 3 = 1890).

TIMIT er dermed en database som inneholder tale fra mange forskjellige personer, vedvarende sekvenser med tale (setninger), god dekning av nordamerikanske standarddialekter og både fonetisk dybde og bredde.

CTIMIT ble laget ved å overføre og gjøre opptak av deler av TIMIT-materialet via trådløse telefonlinjer, nærmere bestemt 3367 av dets opprinnelige 6300 setninger. Den resulterende databasen skal reflektere det språklige mangfoldet fra TIMIT koblet med vanskelige lydforhold, dårlige telefonlinjer og typiske tekniske karakteristikker for trådløs kommunikasjon via telefon. Dette er nødvendig for å utvikle systemer som kan operere under slike forhold.

Setningene fra TIMIT ble under utviklingen av CTIMIT innspilt digitalt i tilfeldig orden på DAT-kassetter. To 15 minutter lange sekvenser fra hver kassett, 24 ialt, ble spilt av enkeltvis i en spesialutstyrt bil via en høyttaler som var koblet til en av tre forskjellige mobiltelefoner. Man kjørte så rundt omkring under varierende kjøre- og trafikkforhold (varierende hastighet, by-/boligstrøk, åpent/lukket vindu osv.) i de sørlige deler av New Hampshire og Massachussetts, mens dataene ble spilt av og overført via forskjellige sendere i området. Slik prøvde man å imitere de forhold og betingelser slike telefonsamtaler foregår under. Oppringningene ble mottatt via en enkelt telefonlinje i SPCOTs laboratorium, hvor tekstene ble digitalisert (ved 8 kHz) og segmentert til enkeltytringer (setninger) igjen. Tekniske spesifikasjoner for utstyret som var i bruk finnes på cd-romen.

Etter bearbeidelse av disse dataene ble de så lagt inn på cd-rom. Her er filene organisert på samme måte som i TIMIT-korpuset, hvilket vil si at de er delt inn i trenings- og testdata (for trening og testing av talespråkssystemet). Disse er lokalisert og ordnet i egne mapper (test og train) på cd-platen.

Til hver lydfil med det talte materialet, hører tre transkripsjonsfiler;

en råtekstversjon
en ortografisk transkripsjon der ordgrensene er tidsrelatert til lydfilen ved hjelp av tidsmarkeringer og
en fonetisk transkripsjon, også tidsrelatert til lydfilen på samme måte som ovenfor.

Denne tidsmarkeringen skal gjøre det enklere å manipulere lydmaterialet, gå inn i filen og segmentere ut det man er interessert i. Alt ligger i samme mappe som lydfilene, sortert etter hver enkelt forsøksperson.

I tillegg inneholder cd-platen både et PostScript-dokument og et tekstdokument som beskriver hele prosjektet inngående. Setningene som er med i korpuset er listet opp i en egen fil. Det finnes også andre filer med informasjon om setningene (hvilke setninger som ble spilt inn på hvilken DAT-kassett, hvilke tekster som ikke er med i CTIMIT). All nødvendig dokumentasjon for de forsøkspersoner som er med ligger i egne filer (hvilke tekster hver enkelt av dem leser, demografisk informasjon om dem etc.). Videre kan man finne en komplett liste over alle setningene (fra TIMIT), og en ordbok over alle forekommende ord i korpuset (med fonemisk transkripsjon), samt en manual som forklarer de fonemiske tegn som benyttes.

[Opp | Engelsk]

Radio Broadcast News

CD-ROM

Utgivelsen av dette korpuset på cd-rom fra Linguistic Data Consortium er en fortsettelse av et prosjekt som ble initiert av DARPA - SLTP (U.S. Defense Department«s Advanced Research Projects Agency - Spoken Language Technology Program) for å bygge opp et korpus av talespråk med et stort vokabular i den hensikt å bidra til forskning på datasystemer som kan gjenkjenne lengre passasjer i talespråk (CSR; Continuous Speech Recognition). Muligens kan dataene også ha videre anvendelse.

Dataene består av opptak fra MarketPlace, et program med handelsnyheter fra KUSC, en radiostasjon i Los Angeles, samt ortografiske transkripsjoner av disse radiosendingene.

Det finnes ialt 21 MarketPlace-sendinger på de tre cd- platene. Hver sending er ca. en halvtime lang, og ligger i en egen (stor!) lydfil. På cd1 (26-1.1) ligger 10 sendinger, egentlig treningsdata for systemet. cd2 (26-2.1) inneholder 6 sendinger, data for testing av systemets utvikling. cd3 (26-6.1) er data for evaluering av systemet, 5 forskjellige sendinger.

Sammen med lydfilene ligger en informasjonsfil om de forskjellige deltagerne i den aktuelle sendingen og en ortografisk transkripsjon av dialogen. Disse tre assosierte filene er markert med samme dato (for sendingen).

Avhengig av hva de brukes til i testene, er transkripsjonene mer eller mindre nøyaktig når det gjelder markering av tidspunkt for naturlige grenser i radiosendingene (dette for lettere å finne fram til de passasjene man vil høre ved hjelp av et lydprogram som har redigeringsfunksjoner). Minstemålet er at hver enkelt reportasje er markert - noen er markert på hver enkelt ytring fra en person.

Hver deltager er identifisert med en egen kode, og det er naturligvis markert i transkripsjonen hvem det er som til en hver tid snakker. Andre ting som er markert, er f.eks. passasjer på andre språk enn AE, forandringer i lydforhold, ikke- språklige lyder og emne for hver enkelt reportasje. Alt dette og mer til er gjennomført ved bruk av enkle SGML-tekstmarkører (Standard Generalized Markup Language).

Litt mer om dette CSR-prosjektet; andre korpora, gitt ut av LDC på cd-rom som del av dette prosjektet, er:

CSR-I; 40 timer lest tekst fra Wall Street Journal
CSR-II; 73 timer lest tekst fra Wall Street Journal
CSR-III Speech; test-korpus
CSR-III Text; språkmodell, programvare
CSR-IV Hub-3; test-korpus
CSR-IV Hub-4; 1997 Broadcast News Speech Corpus
CSR-V Hub-4; 1996 Broadcast News Speech Corpus

Noe av meningen med denne utgivelsen er å teste ut CSR- systemets evne til å tilpasse seg forskjellige typer input, både når det gjelder innhold og variasjoner med hensyn på akustiske forhold. På samme måte fokuserer man på problemer som kan oppstå når systemet må behandle "found speech", dvs. talespråksdata som ikke er blitt laget spesielt for utvikling eller testing av systemer for talespråksgjenkjennelse. Mao. går det på systemets evne til tilpasning til forandrede forhold og robusthet i forhold til dårligere lydkvalitet.

[Opp | Engelsk]

1997 Broadcast News Speech Corpus

CD-ROM

Korpuset består av 18 CD-ROM-plater fra Linguistic Data Consortium. Totalt 97 timer med opptak av nyhetssendinger fra radio og fjernsyn i perioden juni 1997 - februar 1998. Det er meningen at dette korpuset skal tjene som et supplement til 1996 Broadcast News Speech Corpus. Hovedmotivasjonen bak denne samlingen er å sørge for ekstra øvelsesmateriale til DARPAs (U.S. Defense Department`s Advanced Research Projects Agency) "Hub-4"-prosjekt hvis hensikt er å bidra til forskning på datasystemer som kan gjenkjenne lengre passasjer i talespråk (i dette tilfellet nyhetsbulletiner).

Det er laget transkripsjoner av alle opptakene og konvensjonene for transkriberingen ligger i filen "transcrp.doc". Transkripsjonene er i likhet med 1996-korpuset i SGML-format.

Filen "filelist.txt" er en liste over alle talefilene og deres beliggenhet. Navnene inkluderer dato for sendingen og et programprefiks med følgende betydning:

'ea' - ABC World News Tonight
'ed' - CNN Headline News
'ee' - CNN Early Prime
'eh' - PRI The World
'em' - CNN Prime News
'eo' - CNN The World Today
'ep' - C-SPAN Public Policy
'ew' - C-SPAN Washington Journal

Transkripsjonene og filinformasjonen er tilgjengelig i nettet

CSR-I; 40 timer lest tekst fra Wall Street Journal
CSR-II; 73 timer WSJ-tekster
CSR-III Speech; test-korpus
CSR-III Text; språkmodell, tekster
CSR-IV Hub-3; test-korpus
CSR-IV Hub-4: test-korpus
CSR-V Hub-4; 1996 Broadcast News Speech Corpus

[Opp | Engelsk]

1996 Broadcast News Speech Corpus

CD-ROM

Denne versjonen av 1996 Broadcast News Speech Corpus representerer den andre fullsytendige utgaven. Den dekker totalt 104 timer med sendinger fra ABC, CNN, CSPAN television networks og NPR/PRI radio networks, samtidig finnes det transkripsjoner med korreksjoner i ortografien. Disse korreksjonene ble utført av Billy Fisher fra NIST mellom Februar 1997 og Juli 1997. Opptakene finnes på et sett bestående av 19 CDer, mens transkripsjonene er tilgjengelige i nettet.

Som på de andre utgivelsene, er filene organisert etter kilde (nettverk og program), og identifiseres med dato for sendingen i filnavnet. Navngivingen er litt forandret i forhold til tidligere utgivelser for å sørge for lik lengde på filnavnene og for å sikre samsvar mellom tale- og transkripsjonsfilene. Navngivingen er som følger:

AYYMMDDP.txt (transkripsjon) AYYMMDDP.sph (talefil på CD_ROM)

der

A = program identifikasjon (se nedenfor)
YY = hvilket år (alltid 96)
MM = måned
DD = dato
P = del (portion) av sendingen:
- "_" (underscore) = hele sendingen
- "a", "b", "c" eller "d" = sendingener delt opp i to eller flere deler, vanligvis ca. 30 minutter per fil.

Programidentifikasjonen er som følger:

a = ABC Nightline
b = ABC World Nightly News
c = ABC World News Tonight
d = CNN Early Edition
e = CNN Early Prime News
f = CNN Headline News
g = CNN Prime Time News
h = CNN The World Today
i = CSPAN Washington Journal
j = NPR All Things Considered
k = NPR Marketplace

[Opp | Engelsk]

1997 Spanish Broadcast News Speech Corpus

CD-ROM

Dette korpuset består av 9 CD-ROMer samt transkripsjoner, og inkluderer materiale fra følgende kilder:

Voice of America (VOA) - United States Information Agency radio
ECO
UNIVISION

De to sistnevnte er meksikanske, men inkluderer talere fra andre deler av latinamerika. VOA domineres av sendinger fra Cuba (eller andre karibiske øyer)

Tabellen nedenfor indikerer mengden av data fra hver kilde i form av antall filer, antall timer opptak og antall timer som er transkribert:

Kilder	Ant. Filer	Timer opptak	Timer transkribert
ECO	30	17.5	7.8
UNI	24	12.0	7.3
VOA	27	15.5	17.6
Totalt:	81	45.0	32.7

Det tilsynelatende lave utkommet fra disse kildene skyldes at mange segmenter i de akustiske filene ikke inneholdt nyheter.

Navnet på filene indikerer språk, kilde og dato for sendingen:

1. bokstav: språk (her "s" for spansk)
2. bokstav: kilde ("v" for VOA, "e" for ECO, "u" for Univision)
3-7. bokstav: dato for sendingen (YYMDD; e.g. "97418")
8. bokstav: (eventuelt) "a", "b", "c" eller "d"

For månedene oktober, november og desember brukes bokstavene "A", "B" og "C" som femte tegn i filnavnet. Den åttende bokstaven indikerer om det har vært to eller flere opptak samme dag. Man skiller mellom språkfilene og transkripsjonene ved hjelp av et suffiks:

fil-id.sph : språkfil
fil-id.sgm : transkripsjon (i SGML-format)

[Opp | Spansk]

FFM TIMIT
Acoustic-Phonetic
Continuous Speech Corpus

CD-ROM

Dette er et korpus på cd-rom fra Linguistic Data Consortium. Det er en annen utgave av TIMIT Acoustic-Phonetic Continuous Speech Corpus, de samme data som CTIMIT bygger på. Forskjellen ligger i at på den herværende utgaven er det mer ikke-språklige forstyrrelser i form av lavfrekvent støy, noe som bl.a. skyldes vibrasjoner i gulvet der opptakene fant sted. Denne støyen ble lettere oppfattet av den mikrofontypen som er brukt her (B&K, modell 4165). Dette gjør dataene anvendelige til utvikling av mer støyrobuste talespråksgjenkjennende systemer. I tillegg kan dataene være av interesse for forskere som driver med akustisk fonetikk pga. mikrofonens frekvensområde og at det finnes opptak av fininnstillingstoner (bakgrunsstøyen i opptaksrommet) man kan korrigere utstyret etter, se tones.doc- mappen på cd-romen.

Korpuset inneholder opptak av 613 forsøkspersoner fra åtte dialektområder i USA. Hver av forsøkspersonene leser 10 setninger; tilsammen et korpus på 6130 setninger.

Setningsmaterialet som korpuset bygger på, 2342 forskjellige setninger, består av tre typer setninger;

2 dialektisolerende setninger;
450 setninger, holdt for å være fonetisk "kompakte";
1890 setninger av forskjellig fonetisk verdi.

Setningstype (1) ble lest av alle forsøkspersoner, og var kun tatt med for at de skulle "avsløre" sin dialekt. Av (2), som inneholder spesielle kombinasjoner av foner, enten vanskelige eller av spesiell interesse, leste hver person fem; det er syv forekomster av hver enkelt av dem. Setningene (3) var valgt ut fra eksisterende tekstkilder (bl.a. Brown Corpus) for å gi variasjon i setningstyper og forskjellige fonetiske kontekster. Hver person leste tre av disse setningene, og hver forekomst er dermed unik.

Materialet ble delt i to deler etter bestemte kriterier, en for trening av talegjenkjennelsessystemer, og en for testing av dem. Dette ligger i separate mapper på cd-platen, hhv. test og train .

Cd-platen inneholder flere assosierte filer til hver lydfil. Det finnes tre transkripsjonsfiler til hver av dem;

en råtekstversjon
en ortografisk transkripsjon, der ordgrensene ved hjelp av tidsmarkører er relatert i tid til de fonetiske segmentene i talen
en fonetisk transkripsjon, også tidsmarkert i forhold til lydfilen

Denne tidsmarkeringen gjør at man ved hjelp av et lydprogram med redigeringsfunksjoner kan segmentere ut de deler av hver lydfil man er interessert i. Alle transkripsjoner er lokalisert i samme mappe som lydfilene til hver enkelt forsøksperson.

I en fil finnes det en systematisk, nummerert oversikt over alle setningene, en annen gir informasjon om fonetiske symboler som er brukt. Videre finnes en oversikt over forsøkspersonene, med alle nødvendige data (kjønn, alder, dialekt osv.), en oversikt over hvilke setninger hver enkelt av dem leser, kriterier for delingen av materialet i test- og treningsdata og en ordliste (med fonologisk transkripsjon) over alle forekommende ord i korpuset. Kort sagt finnes all den informasjon man kan få bruk for.

I en separat mappe finnes opptak av fininnstillingstoner, spilt inn med det samme utstyret man brukte til å registrere talen. Disse opptakene ble gjort foran hver opptakssekvens, og informasjonen kan være nyttig hvis man skal jobbe med korpuset, spesielt for å stille inn eventuelt teknisk utstyr man bruker. I en egen fil gis det en tabelloversikt som kobler hver forsøksperson og hans/hennes setninger til en bestemt av disse tonene på den dagen det aktuelle opptaket fant sted.

[Opp | Engelsk]

Multi-Microphone

CD-ROM

I dette korpuset på cd-rom fra Linguistic Data Consortium finnes det data som er blitt brukt til å teste datasystemer utviklet for automatisk gjenkjenning av talespråk (CSR; Continuous Speech Recognition). Dette er en fortsettelse av et prosjekt, initiert av DARPA - SLTP (U.S. Defense Department«s Advanced Research Projects Agency - Spoken Language Technology Program).

Dataene består av digitale lydfiler som er samlet ved bruk av 8 forskjellige mikrofoner samtidig under opptak av 20 forsøkspersoner som leser setninger fra forskjellige nordamerikanske handelsaviser, og er delt inn i data for utviklings- og evalueringstesting av systemet. Det er mulig at dataene også kan ha andre anvendelser.

Hver og en av 20 forsøkspersoner (10 kvinner og 10 menn), administrativt personale hos NIST (National Institute of Standards and Technology) med amerikansk engelsk som morsmål, leser 40 adaptasjonssetninger (sekvens 1), spesielt utviklet som testdata for å ha en liten mengde setninger som gir et rikt utvalg av allofonene til de enkelte fonemer. Alle sammen leser de samme setningene. I tillegg leser hver forsøksperson 15 setninger fra forskjellige nordamerikanske handelsaviser (sekvens 2). Disse setningene er valgt ut tilfeldig, og alle leser forskjellige setninger.

Hvert opptak av en setning er lokalisert til en enkelt lydfil. Dvs. at det ialt finnes åtte filer for hver setning, et opptak med hver mikrofon. Hver forsøksperson har en separat mappe der alle disse lydfilene ligger. Sammen med lydfilene ligger en fil med en detaljert ortografisk transkripsjon av alle setninger. Dessuten finnes det en transkripsjonsfil i råtekst for hver setning, og en transkripsjonsfil til bruk for CSR-systemet under evaluering.

Det ble også gjort opptak av bakgrunnsstøy på begynnelsen og slutten av hver opptakssekvens. Hvert av disse opptakene, et pr. mikrofon, ligger i en egen lydfil sammen med dataene. For at ikke alt dette skal gå fullstendig i surr, er hver fil markert med en kode, som binder sammen de filer som naturlig hører sammen. Disse dataene er samlet på de tre første cd-platene (26-3.1, 26-4.1, 26-5.1).

På den siste cd-platen (26-7.1) ligger også noen språklige data; disse er til evalueringstesting av CSR- systemet. Det dreier seg her utelukkende om avistekster (jf. ovenfor). Alle forsøkspersoner leser de samme seks setninger som "oppvarming". Deretter leser hver enkelt et sett på 15 unike setninger. Alt dette er strukturert og ordnet i mapper som for de tre første cd-platene, med de samme assosierte filene.

Litt mer om dette CSR-prosjektet; andre korpora, gitt ut av LDC på cd-rom som del av dette prosjektet, er;

CSR-I; 40 timer lest tekst fra Wall Street Journal
CSR-II; 73 timer lest tekst fra Wall Street Journal
CSR-III Speech; test-korpus
CSR-III Text; språkmodell, programvare
CSR-IV Hub-4; test-korpus

Dette korpuset er et test-korpus, utviklet for å teste systemets evne til å tilpasse seg input som ikke er laget spesielt for det. Dette gjelder både emnet for avisartiklene som leses inn, og ikke minst den lydlige input, som her varieres med hele åtte forskjellige mikrofoner; dette vanskeliggj¿r systemets tilpasning, og stiller større krav til det. Dessuten finnes det en del bakgrunnsstøy på noen av opptakene. Også dette gir en bredere basis for input og bidrar igjen til å komplisere tilpasningen. Det fine med dette er at systemet får en naturligere og mer realistisk utforming, da det forventes at varierende og vanskelige lydforhold er en av de ting som CSR-systemer må kunne være i stand til å takle på en tilfredsstillende måte for å oppfylle sin funksjon.

[Opp | Engelsk]

DCIEM/HCRC Sleep Deprivation Study - Map Task Corpus

CD-ROM

Defence and Civil Institute of Environmental Medicine (DCIEM), North York, Ontario, Canada og Human Communication Research Centre (HCRC), University of Edinburg og University of Glasgow) står sammen om dette prosjektet, hvis mål er å skaffe til veie et korpus med muntlig dialog som på grunn av forsøkets karakter (to personer samarbeider om å løse en oppgave ved hjelp av språk i en tilstand av søvnmangel) kan ha vid anvendelse innenfor språkvitenskapen; fra akustisk fonetikk til sosiolingvistikk. Korpuset er gitt ut på cd-rom av Linguistic Data Consortium.

Eksperimentet skulle undersøke effekten av Modafinil, et oppkvikkende middel intendert brukt for mennesker med søvnproblemer, på kognitive evner under søvnmangel. Man ville prøve å finne ut om midlet hadde samme positive effekt på de kognitive evner under mangel på søvn som amfetaminer har, da man ved riktig dosering visstnok ikke kan observere de samme uheldige bivirkninger for Modafinil som finnes for amfetaminer. Språkmaterialet ble samlet under dette forsøket.

Eksperimentet innebar seks ukelange sekvenser, bestående av det samme forsøket, hver gang med en ny gruppe av seks forsøkspersoner. De ble "blindmedisinert", de fikk medidsin uten å vite hva; to av gruppene fikk Amfetamin, to Modafinil og to Placebo. Forsøkspersonene var frivillige militærreserver i alderen 18 til 50; bare to av dem var kvinner. De fikk lov til å sove deler av den andre, femte og sjette natten under eksperimentet.

"Map task" er en oppgave som skal løses av to personer i fellesskap. En instruktør og en som blir instruert, samarbeider for å rekonstruere en rute på et kart. Begge har hvert sitt kart, og poenget er at instruktøren, som har ruten tegnet inn på sitt, skal rettlede den andre, slik at han/hun kan tegne inn den samme ruten på sitt kart, selv om kartene - og det vet de - ikke er identiske. Det blir så opp til de to å finne ut hvordan kartene skiller seg fra hverandre. Det legges ingen føringer på hva de har lov til å si, og de kan se hverandre hele tiden (ikke hverandres kart, kun muntlig språk kan brukes). To parametre er systematisk manipulert på kartene; (1) fonologisk karakteristikk for kartets stedsnavn og (2) i hvilken grad landemerkene på kartene er de samme.

Noen av stedsnavnene er karakterisert ved at de gir mulighet for en fonologisk modifikasjon/ reduksjon av fire typer, hvorav hver reduksjonstype er forbundet med et par av navn som er systematisk (ikke) tilstede på hver av deltagernes kart;

bortfall av t - east lake / west lake,
glottalisering - white mountain / slate mountain,
bortfall av d - diamond mine / gold mine,
nasal assimilasjon - crane bay / green bay.

Kartene er nøye arrangert slik at landemerker og deres navn skiller seg fra hverandre på flere forskjellige måter på de to deltagernes kart. De kan stå i ett av fire kontrastforhold til hverandre; begge kartene kan ha begge navnene i hvert par, den enes kart kan ha begge mens den andres kun har ett eller begge kartene har bare et av medlemmene i paret. I tillegg til disse hovedtrekkene har kartene også andre karakteristikker, f.eks. inneholder alle minst et eksempel på hver av de to (ordinitielle) trykkmønstrene trykksvak-trykksterk ("baboons") og trykksterk-trykksvak ("buffalo").

Landemerkene manipuleres også på forskjellige måter; de kan være de samme og ha samme navn, de kan være de samme og ha forskjellige navn, de kan finnes kun på det ene kartet, det kan være to av det samme på et kart, og bare et på det andre. Det legges dessuten ut blindspor, f.eks. kan det plutselig finnes et navn som er helt irrelevant i forhold til alle de andre, f.eks. "nuclear test site" midt i et "Vill Vest"-scenario.

Cd-rom-settet består av 12 plater og inneholder:

alt materiale som ble brukt under eksperimentet (kart, informasjon, all slags dokumentasjon)
digitale lydfiler for alle 216 dialoger
ortografiske transkripsjoner av dialogene
diverse dokumentasjon
verktøy

Materialet er delt inn i to deler; del 1 (cd1_1 - cd1_3) utgjøres av 54 dialoger og det som hører med av assosiert materiale (se under). Disse 54 dialogene representerer et snitt av hele eksperimentet; ni dialoger fra hver av de seks sekvensene. Del 2 (cd2_1 - cd2_9) inneholder resten av materialet. For hver uke av eksperimentet samlet man 39 dialoger, hvorav tre var ment til testing, og ikke er med i korpuset.

Dialogene er systematisk fordelt utover alle cd-platene under mappene runX (der X er et tall mellom 1 og 6 - nummeret på sekvensen). Hver dialog ligger i en egen mappe (med et nummer som identifiserer dialogen innenfor den aktuelle sekvensen) og hver mappe inneholder følgende seks filer;

lydfil; med selve dialogen
NIST-hode, inneholdende informasjon om lydfilen
ortografisk transkripsjon; med tidsmarkeringer på hver ytring
TEI entry-point, informasjon om tekstmarkører i transkripsjonen
instruksjonsgiverens kart
kartet til den som skal rekonstruere ruten

Tidsmarkeringene i transkripsjonene gjør det mulig å gå inn i lydfilene på disse punktene ved hjelp av et lydprogram med redigeringsfunksjoner og segmentere ut bestemte deler og passasjer man er interessert i å høre og lagre for seg. Alle transkripsjoner for hele korpuset er for enkelhets skyld (hvis man ikke har behov for lydfilene) samlet i en mappe (trn_all) på alle cd-platene.

I hovedmappen på hver cd-plate finnes videre en doc-mappe; denne inneholder tekstdokumenter med informasjon om eksperimentet. I mappen etc finnes informasjon om de forskjellige forsøkspersonene og kartene. Dessuten ligger det en fil der (0dir.txt), med en liste over alle filer i hele korpuset og hvilken cd-plate man finner dem på. En egen fil (0direye) lister bare dialogene og hvor man finner dem.

[Opp | Engelsk]

Resource Management - Continuous Speech Database

CD-ROM

Dette korpuset på cd-rom fra Linguistic Data Consortium er en samling med enkeltord. Disse leses først, og staves så av samme forsøksperson. Korpuset er en ekstensjon til "RM1 Continuous Speech Corpus", et korpus innenfor det samme domenet som inneholder setninger. Opptakene til denne databasen ble gjort samtidig, med de samme forsøkspersonene.

Korpuset har kanskje en noe sær anvendelse; det er ment brukt som del av et CSR-prosjekt (Continuous Speech Recognition), et system for automatisk gjenkjennelse av talespråk. Dette CSR-systemet er ment anvendt innenfor skipsfart, og man skal kunne bruke det som en hjelp til å innhente nødvendig informasjon om havner, skip, navigasjon osv. Men det er ikke umulig at korpuset også kunne egne seg til andre typer studier; innsamlingen av data foregikk i svært rolige omgivelser, slik at lydkvaliteten på opptakene er bra.

Databasen er generert fra en ordliste på 600 ord, en delmengde av ordlisten på 1000 ord som ble brukt for setningskorpuset. Denne ordlisten er naturligvis farget av det domenet man opererer under, og inneholder typisk mange navn på havnebyer og andre gloser man kan tenke seg relevant for skipsfart.

Man har sørget for at forsøkspersonene gir et representativt utvalg av amerikanske dialekter. Kjønnsmessig er ikke korpuset så godt balansert; omtrent dobbelt så mange menn som kvinner er med som deltagere (dette gjenspeiler kanskje forholdene innen skipsfarten?) - tilsammen ca. 170 deltagere.

Korpuset er delt inn i en taleravhengig og en taleruavhengig del. Disse to delene er igjen delt inn i tre. Den første delen skal brukes til å trene CSR-systemet. Den andre delen er ment som utviklingsmateriale for å teste systemets utvikling, mens siste del blir benyttet til evaluering.

De taler-avhengige dataene består av 12 forsøkspersoner som leser 100 treningsord, 50 ord til utviklingstesting og 50 ord til evalueringstesting. Hvert ord leses først og staves etterpå, slik at hvert ord finnes i to varianter. Dette gir en mengde på 4799 taler-avhengige ytringer (en mangler).

De taler-uavhengige dataene er 80 forsøkspersoner som leser 15 ord hver (tenkt brukt til trening), 40 andre som leser 15 ord (tenkt brukt til utvikling) og endelig 38 som leser 15 ord hver som skal brukes til evaluering. Også her finnes en lest og en stavet variant, og dette gir en total pŒ 4737 taler-uavhengige ytringer (tre mangler).

Dette gir en totalsum på 9536 ytringer. Hvert ord finnes altså i to varianter - en lest og en stavet; hver av disse ligger i en egen fil. Til hver enkelt lydfil finnes det to transkripsjoner;

ordtranskripsjon, tidsjustert til lydfilen ved hjelp av tidsmarkører som er lagt til automatisk på begynnelsen og slutten av hvert ord (hver bokstav for de stavede ordene)
fonetisk transkripsjon, likeens tidsjustert med tidsmarkører på hver enkelt fon.

Slik kan man ved hjelp av et lydprogram med redigeringsfunksjoner gå inn i lydfilene på disse tidsmarkørene og segmentere ut de deler eller foner man vil.

I tillegg til informasjon om hver enkelt av forsøkspersonene som er med i forsøket (dialekt, eventuelle spesialiteter i uttalen), er også ordlisten som ligger til grunn for dataene med. Dataene er strukturert og gitt navn slik at det er lett å finne ut hvilket ord som finnes i hvilken fil, hvem som uttaler det og hva det er tenkt brukt til i testene.

[Opp | Engelsk]

Voice Across Hispanic America (VAHA)

CD-ROM

Dette korpuset på cd-rom fra Linguistic Data Consortium, inneholder talespråksdata på amerikansk spansk. Voice Across Hispanic America (VAHA) består av digitale opptak over telefon av 915 amerikanere fra forskjellige deler av USA med spansk som morsmål. Korpuset kan ha forskjellige anvendelser, men er intendert brukt til forskning på talespråksteknologi, spesielt innenfor domenet telekommunikasjon.

Dette gjenspeiles i materialet som finnes i korpuset. Man har villet utvikle et vokabular som kan dekke viktige aspekter ved talespråksgjenkjennelse via telefonlinjer. Dette dreier seg om kredittkort- og telefonnummer, datoer, klokkeslett, ja/nei-svar, egennavn, tall-/bokstavsekvenser og enkle kommandoord og -fraser; alt deler av et relevant vokabular som kan tenkes brukt innen automatiserte telefontjenester. Viktig i denne sammenhengen er det også at dataene er rike på fonetisk variasjon, at de gir mange og gode eksempler på forskjellige fonetiske kontekster. For å få til denne variasjonen, valgte man ut 13.338 setninger fra to eksisterende tekstkorpora, som forsøkspersonene leste inn over telefon.

Kommandoordene (-frasene) kan f.eks. være av typen "ring hjem", "slå nummer ...", "spill av beskjed", hvorpå telefonsystemet utfører denne ordren. En annen mulighet er at man kan bestille telefontjenester ved hjelp av talespråk, som man idag utfører med tastaturkommandoer.

Hver av deltagerne i datainnsamlingen fikk et skjema med 45 punkter, inneholdende alle de aspekter beskrevet i de ovenstående avsnittene. Av de 45 punktene, var 36 elementer (ord, setninger, datoer, tallsekvenser) som skulle leses, mens de resterende ni var spørsmål som skulle få deltagerne til å komme med spontane ytringer. De ringte så opp en gratis telefontjeneste, fulgte de instrukser som ble gitt, og dataene ble deretter bearbeidet på forskjellig måte; noe ble sortert ut etter bestemte kriterier, resten ble transkribert og bearbeidet videre, deretter inkludert på cd- romen.

Forsøkspersonene har som nevnt alle amerikansk spansk som morsmål. De er i alderen mellom 16 og 70 år, og er ment å skulle gjenspeile immigrasjonssituasjonen med immigranter fra Syd- og Mellomamerika, samt dialektal variasjon blant USAs spansktalende befolkning. Deltagerne er karakterisert ved en egen kode for hver enkelt, og det foreligger informasjon om kjønn, alder, geografisk opprinnelse, bosted, utdanningsnivå og inntekt.

VAHA inneholder ialt 38.740 ytringer fra 570 kvinnelige og 345 mannlige forsøkspersoner med amerikansk spansk som morsmål. Hver av deltagerne bidrar med fra fem til 45 ytringer. 31.066 av ytringene stammer fra materiale som leses fra lister, mens de resterende 7.674 er spontane ytringer, hvorav 3.468 er ja/nei-svar.

Hver enkelt ytring er lagret i en egen fil, slik at det er opptil 45 filer pr. forsøksperson. Til hver av ytringene finnes en teksttranskripsjon. Denne transkripsjonen er ispedd forskjellige markører som angir kvalitet på opptaket, spesielle ikke-språklige ting som kan høres på opptaket og annen relevant informasjon.

På de to cd-platene er dataene delt inn i test- (test) og treningsdata (train), for henholdsvis testing og trening av talespråksgjenkjennelsessystemer.

[Opp | Spansk]

CallHome German

CD-ROM

Dette korpuset på cd-rom fra Linguistic Data Consortium er laget med tanke på utvikling av et talegjenkjenningssystem for tysk som skal operere over telefonlinjer. Det inneholder derfor telefonsamtaler som er spilt inn og digitalisert via ordinære telefonlinjer, med all den ikke-språklige tekniske støy dette medfører, slik at systemet skal være istand til å fungere på tross av den. Korpuset er at av flere på andre språk i et prosjekt kalt Large Vocabulary Conversational Speech Recognition (LVCSR).

Korpuset består av 100 telefonsamtaler mellom personer med tysk som morsmål. Hver dialog er et spesielt valgt utdrag på ca. 10 minutter fra en samtale på opptil en halv time. De fleste samtalene er mellom familiemedlemmer eller nære venner, og ingen føringer er lagt på emne for samtalene Ð dette for at systemet skal få en så allsidig input som mulig. Hver person som initierte den enkelte samtalen, sto fritt i valget av samtalepartner. Alle samtaler utgikk fra Nord-Amerika (USA) til et øversjøisk sted, vanligvis til Tyskland. Alle deltagere i samtalene var til enhver tid klar over at samtalen ble spilt inn.

Til hver samtale finnes en transkripsjon av alt som blir sagt. Dette er transkripsjoner i standard ortografi, sjekket og kryssjekket for en høy grad av riktighet. Fonemiske og/eller fonetiske transkripsjoner finnes ikke.

I transkripsjonene finnes "tidsstempler". Disse er plassert foran hver talers separate ytring, angir start- og sluttidspunktet for hver enkelt ytring og har en nøyaktighet på 1/100 sekund. Tanken bak disse er at man lettere skal kunne se transkripsjonen i relasjon til lydfilen. Man kan også lettere - ved hjelp av et lydprogram med redigeringsfunksjoner - gå inn i filen på disse markørene og segmentere ut de deler av samtalen man er interessert i.

80 av samtalene på cd-romene er påtenkt trening av talegjenkjenneren, mens de resterende 20 er til testing av dens utvikling. (Ytterligere 100 samtaler finnes: Disse er tenkt brukt til evaluering av systemet på et senere tidspunkt, og vil sannsynligvis publiseres på en senere utkommende cd-rom. Muligens kan korpuset også finne annen amvendelse, siden det dreier seg om forsåvidt lange lange samtaler.

Før korpuset kan tas i bruk, må det tilrettelegges og bearbeides for bruk - det er ikke tilgjengelig over nettet. Interesserte bes derfor ta kontakt med Tekstlaben.

[Opp | Tysk]

CallHome American English

CD-ROM

Dette korpuset på cd-rom fra Linguistic Data Consortium er laget med tanke på utvikling av et talegjenkjenningssystem for (amerikansk) engelsk som skal operere over telefonlinjer. Det inneholder derfor telefonsamtaler som er spilt inn og digitalisert via ordinære telefonlinjer, med all den ikke-språklige tekniske støy dette medfører, slik at systemet skal være istand til å fungere på tross av den. Korpuset er et av flere på andre språk i et prosjekt kalt Large Vocabulary Conversational Speech Recognition (LVCSR).

Korpuset består av 120 telefonsamtaler mellom personer med engelsk som morsmål. De fleste samtalene er mellom familiemedlemmer eller nære venner, og ingen føringer er lagt på emne for samtalene, dette for at systemet skal få en så allsidig input som mulig. Personen som initierte den enkelte samtalen, sto fritt i valget av samtalepartner. Alle samtaler utgikk fra Nord-Amerika (USA), 90 av dem til steder på andre siden av Antlanteren, mens de resterende 30 fant sted innen USA. Alle deltagere i samtalene var til enhver tid klar over at samtalen ble spilt inn.

80 av samtalene på cd-romen er påtenkt trening av talegjenkjenneren, 20 er til testing av dens utvikling, mens de resterende 20 er tenkt brukt til evaluering. (Ytterligere 80 samtaler finnes: Disse er tenkt brukt til evaluering av systemet på et senere tidspunkt, og vil sannsynligvis publiseres på en senere utkommende cd-rom.) Muligens kan korpuset også finne annen amvendelse, siden det dreier seg om forsåvidt lange samtaler.

Det finnes transkripsjoner av det som blir sagt i de forskjellige dialogene. Transkripsjonene kan leses uavhengig av CD-platen. Dette er transkripsjoner i standard ortografi, sjekket og kryssjekket for en høy grad av riktighet. Fonemiske og/eller fonetiske transkripsjoner finnes ikke.

[Opp | Engelsk]

CallHome Spanish

CD-ROM

Dette korpuset på cd-rom fra Linguistic Data Consortium er laget med tanke på utvikling av et talegjenkjenningssystem for spansk som skal operere over telefonlinjer. Det inneholder derfor telefonsamtaler som er spilt inn og digitalisert via ordinære telefonlinjer, med all den ikke-språklige tekniske støy dette medfører, slik at systemet skal være istand til å fungere på tross av den. Korpuset er at av flere på andre språk i et prosjekt kalt Large Vocabulary Conversational Speech Recognition (LVCSR).

Korpuset består av opptak fra 120 telefonsamtaler mellom personer med spansk som morsmål. Hver dialog er et spesielt valgt utdrag på ca. 10 minutter fra en samtale på opptil en halv time. De fleste samtalene er mellom familiemedlemmer eller nære venner, og ingen føringer er lagt på emne for samtalene - dette for at systemet skal få en så allsidig input som mulig. Hver person som initierte den enkelte samtalen, sto fritt i valget av samtalepartner. Alle deltagere i alle samtaler var til enhver tid klar over at samtalen ble spilt inn.

Det finnes også transkripsjoner av samtalene (i standard ortografi) samt et leksikon som inneholdende mer enn 45000 oppslagsord med diverse opplysninger om morfologi, fonologi og trykkforhold. Dette kan brukes uavhengig av CD-ROMen med talespråksdataene.

[Opp | Spansk]

CallHome Mandarin Chinese

CD-ROM

Dette korpuset på cd-rom fra Linguistic Data Consortium er laget med tanke på utvikling av et talegjenkjenningssystem for kinesisk som skal operere over telefonlinjer. Det inneholder derfor telefonsamtaler som er spilt inn og digitalisert via ordinære telefonlinjer, med all den ikke-språklige tekniske støy dette medfører, slik at systemet skal være istand til å fungere på tross av den. Korpuset er at av flere på andre språk i et prosjekt kalt Large Vocabulary Conversational Speech Recognition (LVCSR).

Korpuset består av opptak fra 120 telefonsamtaler mellom personer med mandarin som morsmål. Hver dialog er et spesielt valgt utdrag på ca. 10 minutter fra en samtale på opptil en halv time. De fleste samtalene er mellom familiemedlemmer eller nære venner, og ingen føringer er lagt på emne for samtalene - dette for at systemet skal få en så allsidig input som mulig. Hver person som initierte den enkelte samtalen, sto fritt i valget av samtalepartner. Alle deltagere i alle samtaler var til enhver tid klar over at samtalen ble spilt inn.

Det finnes også transkripsjoner av samtalene (i standard ortografi), samt et leksikon inneholdende ca. 45000 oppslagsord med diverse opplysninger om morfologi, fonologi og trykkforhold. Dette kan brukes uavhengig av CD-ROMen med talespråksdataene.

[Opp | Kinesisk]

CallHome Egyptian Arabic

CD-ROM

Dette korpuset på cd-rom fra Linguistic Data Consortium er laget med tanke på utvikling av et talegjenkjenningssystem for egypyisk arabisk som skal operere over telefonlinjer. Det inneholder derfor telefonsamtaler som er spilt inn og digitalisert via ordinære telefonlinjer, med all den ikke-språklige tekniske støy dette medfører, slik at systemet skal være istand til å fungere på tross av den. Korpuset er at av flere på andre språk i et prosjekt kalt Large Vocabulary Conversational Speech Recognition (LVCSR).

Korpuset består av opptak fra 120 telefonsamtaler mellom personer med egyptisk arabisk som morsmål. Hver dialog er et spesielt valgt utdrag på ca. 10 minutter fra en samtale på opptil en halv time. De fleste samtalene er mellom familiemedlemmer eller nære venner, og ingen føringer er lagt på emne for samtalene - dette for at systemet skal få en så allsidig input som mulig. Hver person som initierte den enkelte samtalen, sto fritt i valget av samtalepartner. Alle deltagere i alle samtaler var til enhver tid klar over at samtalen ble spilt inn.

Det finnes også transkripsjoner av samtalene (i standard ortografi) samt et leksikon inneholdende mer enn 16000 oppslagsord med diverse opplysninger om morfologi, fonologi og trykkforhold. Dette kan brukes uavhengig av CD-ROMen med talespråksdataene.

[Opp | Arabisk]

CallHome Japanese

CD-ROM

Dette korpuset på cd-rom fra Linguistic Data Consortium er laget med tanke på utvikling av et talegjenkjenningssystem for egypyisk japansk som skal operere over telefonlinjer. Det inneholder derfor telefonsamtaler som er spilt inn og digitalisert via ordinære telefonlinjer, med all den ikke-språklige tekniske støy dette medfører, slik at systemet skal være istand til å fungere på tross av den. Korpuset er at av flere på andre språk i et prosjekt kalt Large Vocabulary Conversational Speech Recognition (LVCSR).

Korpuset består av opptak fra 120 telefonsamtaler mellom personer med japansk som morsmål. Hver dialog er et spesielt valgt utdrag på ca. 10 minutter fra en samtale på opptil en halv time. De fleste samtalene er mellom familiemedlemmer eller nære venner, og ingen føringer er lagt på emne for samtalene - dette for at systemet skal få en så allsidig input som mulig. Hver person som initierte den enkelte samtalen, sto fritt i valget av samtalepartner. Alle deltagere i alle samtaler var til enhver tid klar over at samtalen ble spilt inn.

Det finnes også transkripsjoner av samtalene (i standard ortografi) samt et leksikon inneholdende mer enn 80000 oppslagsord med diverse opplysninger om morfologi, fonologi og trykkforhold. Dette kan brukes uavhengig av CD-ROMen med talespråksdataene.

[Opp | Japansk]

CallFriend Collection

CD-ROM

CallFriend er en samling av 15 talespråkskorpora på 12 språk, tre av dem med to dialektvarianter for sammenligning (se under). Korporaene kommer på CD-ROM fra Linguistic Data Consortium. Hvert korpus består av 3 CD-ROMer. Dataene skriver seg fra et større prosjekt om automatisk språkidentifisering (Language Identification - LID).

Det finnes data for følgende språk:

Amerikansk engelsk (ikke-sørlig dialekt)
Amerikansk engelsk (sørlig dialekt)
Egyptisk arabisk
Farsi
Hindi
Japansk
Kanadisk fransk
Koreansk
Mandarin (fastlandsdialekt)
Mandarin (Taiwansk dialekt)
Spansk (karibisk dialekt)
Spansk (ikke-karibisk dialekt)
Tamil
Tysk
Vietnamesisk

For hvert av disse språkene (og dialektene) finnes lydfiler med opptak av 60 telefonsamtaler mellom morsmålstalende av det aktuelle språket. Disse samtalene har en varighet på fem til 30 minutter.

Datainnsamlingen foregikk ved at frivillige ringte opp en fritt valgt person et eller annet sted i verden (begge var klar over at det ble gjort opptak av samtalen) og gjennomførte en samtale på opptil 30 minutters varighet. Ingen føringer ble lagt på samtaleemne.

Så ble dataene verifisert ved at en person, kompetent i det aktuelle språket, hørte gjennom samtalen for å være sikker på at riktig språk ble benyttet og sjekke kvaliteten på opptaket. Næ:rmere informasjon om dette finnes i filene callinfo.tbl og callinfo.doc på CD-ROMen. En ny verifisering ble gjennomført for amerikansk engelsk, mandarin og spansk for å dele samtalene inn i de respektive dialektene. Dette ble gjort etter bestemte kriterier av f eks fonologisk, syntaktisk eller prosodisk art. Noe mer om dette finnes under doc-området på de enkelte CD-plate. Der finnes også demografisk informasjon om de forskjellige personene som er å høre på CDene: spkrinfo.tbl og spkrinfo.doc.

De 60 lydfilene for hvert språk er delt inn i filer for "training", "development test" og "evaluation test". Dette reflekterer den tidligere bruken av dem i det før nevnte språkidentifikasjonsprosjektet.

Det finnes (foreløpig?) dessverre ingen transkripsjoner til dialogene.

[Opp]

SWITCHBOARD-1 Release 2

CD-ROM

Switchboard er et prosjekt innen talespråksteknologi som ble utgitt for første gang i 1992-93. Siden den gang har man forbedret dataene og rettet opp en rekke feil. Korpuset er tenkt brukt på feltet talespråksteknologi, f eks talegjenkjenning, og inneholder opptak av noe over 2400 telefonsamtaler mellom 543 forskjellige personer, 302 mannlige og 241 kvinnelige, fra alle forskjellige kanter av USA.

Dataene ble samlet inn i 1990-91 ved Texas Instruments. Personene som snakker i opptakene er betalte frivillige som har gitt tillatelse til at samtalene kan brukes til forskningsformål.

Et sentralbordlignende datasystem styrte datainnsamlingen: den som innledet hver enkelt samtale ble utstyrt med informasjon om hvem han/hun kunne ringe. Det ble også gitt en liste over forskjellige emner til diskusjon i samtalene. Opptakene ble gjort automatisk. Begrensninger ble lagt slik at de samme to personer ikke snakket med hverandre mer enn én gang og at hver person ikke snakket mer enn én gang om samme emne. (Det ble utdelt en liste over 70 "topics".)

Korpuset inneholder altså i overkant av 2400 telefonsamtaler. Disse har en gjennomsnittlig varighet på ca. seks minutter, og hele korpuset inneholder ca. 240 timer med tale. Det finnes sålangt ikke transkripsjoner til materialet, dette vil muligens komme senere.

Mer utførlig informasjon om korpuset finnes på LDCs hjemmeside (Lesmeg-fil), men dette er informasjon som er relatert til den eldre utgaven av korpuset. Inntil vi eventuelt mottar transkripsjoner av materialet, er ikke informasjonen helt riktig. Se også nyere utgave nedenfor.

[Opp| Engelsk]

Switcboard-2 Phase I Speech Corpus

CD-ROM

Switchboard-2 Phase I består av 26 CD-ROM-plater som inneholder 3638 5-minutters telefonsamtaler. I tillegg til talespråkfilene inneholder CD-ROM-platene dokumentasjon om personene som snakker (kjønn, alder, utdanning, by og fødselssted), om de enkelte samtaler (dato, klokkeslett, lengde, emne og personlige identifikasjonsnumre) og om lydkvalitet (bakgrunnsstøy, linjekvalitet).

Lydfilene er navgitt etter følgende mønster:
sw_NNNNN.sph
der "NNNNN" representerer samtaleidentifikasjon. Denne identifikasjonen brukes til å identifisere alle talefilene og til å identifisere samtalene i assosierte databasetabeller som inneholder informasjon om samtalen og deltagerne (i.e. callstat.tbl, master.tbl).

"master.tbl"-filen på hver CD-ROM lister alle talefilene i korpuset og viser hvilken plate filen er lagret på, det 8.3-bokstav lange filnavnet og en lengre tekststreng som som viser dato for samtalen og identifikasjon av henholdsvis sender og mottaker (separet ved hjelp av "_"). "disc_NN.tbl"-filen lister talefilene som finnes på den enkelte CD-ROM.

Transkripsjoner er ikke tilgjengelig i nettet.

[Opp | Engelsk]

Switcboard-2 Phase II Speech Corpus

CD-ROM

Switchboard-2 Phase II består av 32 CD-ROM-plater som inneholder 4472 5-minutters telefonsamtaler. Korpuset er en oppfølger til Switcboard-2 Phase I og er bygd opp på samme måte.

[Opp | Engelsk]

Kids Corpus

CD-ROM

Dette korpuset fra Linguistic Data Consortium består av talespråksdata, nærmere bestemt setninger, lest høyt av barn. Dataene ble opprinnelig samlet inn for å trene en talegjenkjenner ("LISTEN project" ved Carnegie Mellon University). Språket er (amerikansk) engelsk.

De ialt 76 barna, 52 jenter og 24 gutter, er i alderen seks til elleve år. Til sammen produserer de 5180 ytringer (setninger). Setningene kommer fra undervisningsmateriale som brukes i skolen for barn i denne alderen. Setningene er delvis enkeltstående, delvis utgjør de en historie. Hvert barn leste et ulikt antall setninger, de holdt på til de ikke klarte å konsentrere seg lenger. I snitt leser hvert barn ca. 68 setninger. Selv om det er vesentlig flere jenter enn gutter, regnes ikke dette som noe problem, da ulikhetene i talekanalen ikke er så utviklet ennå for denne aldersgruppen. Korpuset inneholder bå sosiolektal og dialektal variasjon.

Fordi det er mye vanskeligere å samle inn talespråksdata fra barn enn fra voksne - konsentrasjons- og tålmodighetsnivået er lavere, man kan enklere korrigere en voksen og voksne kan lese store mengder tekst mye enklere (forutsatt at man ikke har dysleksi, afasi osv) - har kriteriene for hva som er tatt med i dette korpuset vært lavere enn normalt ved innsamling av slike korpora. Dette reflekteres i dataenes kvalitet, og er nøyere utlagt for hvert enkelt barn i egne transkripsjons- og kommentarfiler.

I tillegg til lydfilene, finnes transkripsjoner (ASCII) av setningene, filer med "tidsmarkering" for hvert ord og hvert fonetiske segment til bruk for lydprogrammer med redigeringsfunksjoner, filer med informasjon om barna (hvor de kommer fra, kvalitet på opptak, feil de gjør osv).

[Opp | Engelsk]

Hansard French/English

CD-ROM

Hansard-korpuset fra Linguistic Data Consortium består av parallelle tekster på engelsk og (kanadisk) fransk, hentet fra offisielle dokumenter fra Parlamentet i Canada. Det dreier seg mao om relativt stivt språk, men emnene er mange, og den stilistiske variasjonen stor. Her finnes spontane diskusjoner, noe brevmateriale, proposisjoner til Parlamentet og manuskripter til taler.

Dataene spenner over en periode fra midten av 1970-tallet frem til i dag. Tekstene inneholder et minimum av SGML-tagger (setninger og avsnitt er markert), for øvrig benyttes standard 8-bit ISO-Latin1 bokstavkoding. Alle data er organisert i en parallell filstruktur, slik at innholdet i en gitt tekstfil på engelsk har en motsvarighet med samme innhold på fransk.

Dataene er delt inn i tre delmengder, noe som kun reflekterer hvor tekstene stammer fra: to sekundærkilder har vært inne i bildet. Underområdet set_a inneholder data som LDC mottok fra IBM IBM T.J. Watson Research Center, og det spesielle med disse er at hver setning er nummerert slik at innholdet i setninger med samme nummer på de to språkene har det samme innholdet (omtrent). Denne nummereringen gjelder ikke set_b og set_c. Set_a innehholder data fra midten av 70- til midten av 80-tallet.

Filene på områdene set_b og set_c kommer fra arkivene til Bell Communications Research Inc., og dataene er fra årene 1986-88. Her er hvert avsnitt innen hver enkelt fil nummerert, og dette stemmer overens i de to filene (med enkelte feil). Filene i set_b inneholder i tillegg opplysninger om hva som er tekstens originalspråk og hvilken av dem som er oversatt.

[Opp | Flerspråklige korpus]

North American News Text Corpus

CD-ROM

North American News Text Corpus fra Linguistic Data Consortium er et (stort!) tekstkorpus på omlag 350 millioner ord med tekster på engelsk fra forskjellige kilder:

Kilde	Periode	Antall ord
Los Angeles Times og Washington Post	Mai 1994 - august 1997	52 mill.
New York Times News Syndicate	Juli 1994 - desember 1996	173 mill.
Reuters News Service	April 1994 - desember 1996	85 mill.
Wall Street Journal	Juli 1994 - desember 1996	40 mill.

Dataene er hentet ned automatisk fra nyhetsbyr&ariing;ene via elektroniske kilder og lagret i filer som inneholder én dags overføring fra én kilde. Filnavnene reflekterer dette, de er på formen

ssÅÅMMDD,

der ss er en tobokstavs kode for kilde, og ÅÅMMDD angir dato, slik at f eks 970711 representerer 11. juli 1997.

Noen av avisene har også materiale fra andre aviser, i filene fra L.A.Times/Washington Post finnes tekster fra:

Newsday
The Baltimore Sun
The Hartford Courant

New York Times-filene har tekster fra følgende kilder:

Bloomberg Business News
The Boston Globe
Los Angeles Daily News
Fort Worth Star-Telegram
Newsweek
Cox News Service
The Arizona Republic
Seattle Post-Intelligencer
San Francisco Examiner
Houston Chronicle
San Francisco Chronicle
Economist Newspaper Ltd.
Hearst Newspapers

I tillegg finnes materiale fra andre kilder i svært begrenset omfang, de listede kildene er mer frekvente (daglig basis).

Tekstene er SGML-tagget etter følgende standard:

<DOC>/</DOC>	markerer begynnelsen/slutten på hver artikkel.
<TEXT>/</TEXT>	markerer begynnelsen/slutten på selve teksten i hver artikkel.
<p>	markerer avsnitt innen hver artikkel.
I tillegg finnes i noen utstrekning markering av informasjon som er uavhengig av selve artikkelteksten, f eks overskrifter, forfatter osv (HEADER- og TRAILER-tagger).

[Opp]

JEIDA (JCSD) Japanese Speech Data

CD-ROM

Dette er et talespråkskorpus med data for japansk. Korpuset er ment som et treningskorpus for talegjenkjennere, og inneholder tale fra 150 forsøkspersoner med japansk som morsmål. Hver person gir fire repetisjoner av 323 forskjellige ord, fra seks klasser:

navn på byer
kontrollord
enstavelsesord
enkelttall
sekvenser av fire tall

Det ble gjort opptak med to mikrofoner av hver av forsøkspersonene, og det er forskjell i kvalitet på de to opptakene. Dette gir et samlet antall filer på 387 600, men noen mangler på grunn av tekniske problemer under opptakene.

Hele korpuset består av til sammen 40 CDer. Foreløpig har vi bare 19 og disse inneholder navn på byer, kontrollord, enkelttall og enstavelsesord (kun én CD).

[Opp]

LDC - Linguistic Data Consortium

FFM TIMIT Acoustic-Phonetic Continuous Speech Corpus

DCIEM/HCRC Sleep Deprivation Study - Map Task Corpus

FFM TIMIT
Acoustic-Phonetic
Continuous Speech Corpus