Tekstlab hjemmeside

 

Tekstlaboratoriets engelske korpus og programmer

Navn Type Eget søkegrensesnitt Ant. ord Medium Annet
British National Corpus BL Nei 100 mill. CD-ROM Britisk engelsk. Se nettsiden
Brown Corpus BL Nei 1,0 mill. Nettverk Amerikansk engelsk
CHILDES BL ? ? CD-ROM Barnespråk
Helsinki Corpus BL Nei 1,5 mill. Nettverk Diakrone tekster
Kolhapur Corpus BL Nei 1,0 mill. Nettverk Indisk engelsk
LOB Corpus BL Nei 1,0 mill. Nettverk Britisk engelsk
London-Lund Corpus BL Nei 50.000 Nettverk Transkribert tale
North American News 1 AV Nei 350 mill. CD-ROM Elektroniske nyheter
North American News 2 AV Nei 270 mill. CD-ROM Elektroniske nyheter
Susanne Corpus BL Nei 130.000 Nettverk Taggede tekster
Penn Treebank 2 GR Ja 2,6 mill. CD-ROM Taggede tekster
Penn Treebank 3 GR Ja 2-3 mill. ? CD-ROM Taggede tekster
Diverse skjønnlitteratur SK Nei 241.000 Nettverk Ulike forfattere
Sherlock Holmes SK Nei 915.000 Nettverk Av Sir A. C. Doyle
OED OB Ja ? Nettverk For ansatte og hovedfagsstudenter
OALDCE OB Nei ? Nettverk Ren tekstversjon
WordNet OB ? ? Nettverk  
Hansard Corpus SA Nei 106 mill. CD-ROM Parallellkorpus (engelsk-fransk)
1996 Broadcast News Transcripts AV Nei 1,15 mill. Nettverk Transkriberte radionyheter
Callhome American English Transcripts BL Nei 330.000 Nettverk Transkriberte telefonsamtaler
TDT2 English Text Corpus AV Nei ? CD-ROM Transkriberte radionyheter
TDT2 Text Data and Tables AV Nei ? CD-ROM Flerspråklig korpus
CSR III - Text GR Nei ? CD-ROM Transkribert tale
1996 Language Model Broadcast News Archive TA Nei - CD-ROM Talegjenkjenning
Air Traffic Information System 3 TA Nei - CD-ROM Talegjenkjenning (setninger)
CallFriend American English: Southern Dialect TA Nei - CD-ROM Talegjenkjenning (telefonsamtaler)
CallFriend American English: Non- Southern Dialect TA Nei - CD-ROM Talegjenkjenning (telefonsamtaler)
CallHome American English TA Nei - CD-ROM Talegjenkjenning (telefonsamtaler)
CSR III - Speech TA Nei - CD-ROM Talegjenkjenning (setninger)
CTIMIT TA Nei - CD-ROM Talegjenkjenning (setninger)
DCIEM Sleep Deprivation Study TA Nei - CD-ROM Mange bruksområder (dialoger)
FFM TIMIT TA Nei - CD-ROM Talegjenkjenning (setninger)
Kids Corpus TA Nei - CD-ROM Talegjenkjenning (setninger-barnespråk)
KING Speech Corpus TA Nei - CD-ROM Talegjenkjenning (setninger)
Multi-Michrophone TA Nei - CD-ROM Talegjenkjenning (setninger)
NYNEX Phonebook TA Nei - CD-ROM Talegjenkjenning (ord)
1995 Broadcast News TA Nei 10 timer CD-ROM Talegjenkjenning (radiosendinger)
1996 English Broadcast News TA Nei 104 timer CD-ROM Talegjenkjenning (radiosendinger)
1997 English Broadcast News TA Nei 97 timer CD-ROM Talegjenkjenning (radiosendinger)
Resource Management TA Nei - CD-ROM Talegjenkjenning (ord)
Speech Under Simulated and Actual Stress TA Nei - CD-ROM Talegjenkjenning (ord)
Switchboard 2 Phase 1 TA Nei 303 timer CD-ROM Talegjenkjenning (dialoger)
Switchboard 1 Release 2 TA Nei - CD-ROM Talegjenkjenning (dialoger)
Switchboard 2 Phase 1 TA Nei 303 timer CD-ROM Talegjenkjenning (dialoger)
Switchboard 2 Phase 2 TA Nei 373 timer CD-ROM Talegjenkjenning (dialoger)
Tactical Speaker Identification Speech Corpus (TSID) TA Nei - CD-ROM Talegjenkjenning (via radiolinjer)
TRAINS TA Nei 6,5 timer CD-ROM Talegjenkjenning (dialoger)
Voicemail Corpus Part 1 TA Nei 15 timer CD-ROM Talegjenkjenning (telefonbeskjeder)
1998 HUB-4 - Broadcast News Evaluation - English Test Material TA Nei 3 timer CD-ROM Talegjenkjenning (nyhetsmeldinger)
COMLEX English Syntax Lexicon OB Nei 38 000 leksemer Nettverk  
1999 HUB-4 - Broadcast News Evaluation - English Test Material TA Nei 3 timer CD-ROM Automatisk transkripsjon
Speech in Noisy Environment (SPINE) Training Audio TA Nei 12 timer CD-ROM Talegjenkjenning (dialoger)
Speech in Noisy Environment (SPINE) Evaluation Audio TA Nei 9t 22m CD-ROM Talegjenkjenning (dialoger)
Speech in Noisy Environment (SPINE) Evaluation Transcripts BL Nei 10 timer Nettverk Automatisk transkripsjon
Topic Detection and Tracking (TDT2) Careful Transcription Audio Corpus TA Nei - CD-ROM Talegjenkjenning (nyhetsmeldinger)
TDT2 Multilanguage Text Corpus Version 4.0 AV Nei - CD-ROM Nyhetsmeldinger
TDT3 Multilanguage Text Corpus AV Nei - CD-ROM Nyhetsmeldinger
2000 NIST Speaker Recognition Evaluation TA Nei 148,9 timer CD-ROM Testkorpus for automatisk gjenkjenning av talere
Prague Dependency Treebank 1.0 BL Nei - CD-ROM Taggede og utaggede tekster; NLP-verktøy
Speech in Noisy Environment 2 (SPINE2) Part 1 Audio (Training data) TA Nei 7 timer CD-ROM Talegjenkjenning (dialoger)
Speech in Noisy Environment 2 (SPINE2) Part 1 Audio (Development data) TA Nei 3,5 timer CD-ROM Talegjenkjenning (dialoger)
Speech in Noisy Environment 2 (SPINE2) Part 3 Audio (Evaluation data) TA Nei 7 timer CD-ROM Talegjenkjenning (dialoger)
Switchboard Cellular Part 1 Transcription BL Nei Tilsvarende ca. 12 timer lyd Nettverk Transkriberte mobiltelefonsamtaler
Switchboard Cellular Part 1 Audio TA Nei Ca. 65 timer lyd CD-ROM Mobiltelefonsamtaler
Switchboard Cellular Part 1 Transcribed Audio TA Nei Ca. 12 timer lyd CD-ROM Mobiltelefonsamtaler
RST Discourse Treebank AV Nei 385 avisartikler Nettverk Merket med diskursstruktur
Switchboard-2 Phase III Audio AV Nei Ca. 222 timer lyd CD-ROM Materiale for utvikling og evaluering av taleteknologi
1998 HUB5 English Evaluation TA Nei - CD-ROM Materiale for evaluering av taleteknologi
2001 HUB5 English Evaluation TA Nei - CD-ROM Materiale for evaluering av taleteknologi
1997 HUB4 English Evaluation Speech and Transcripts TA Nei - CD-ROM Taledata og transkripsjoner for evaluering av systemer for automatisk talegjenkjenning
Emotional Prosody Speech and Transcripts TA Nei 9 timer lyd CD-ROM Taledata og transkripsjoner for forskning på emosjonsprosodi
The AQUAINT Corpus of English News Text (6. januar 2003) AV Nei ca. 375 mill. CD-ROM Nyhetstekster
2001 NIST Speaker Recognition Evaluation Corpus (6. januar 2003) TA Nei 26 timer CD-ROM Testkorpus for automatisk gjenkjenning av talere
English Gigaword AV Nei 26 timer CD-ROM Nyhetstekster