Navn | Type | Eget søkegrensesnitt | Ant. ord | Medium | Annet |
British National Corpus | BL | Nei | 100 mill. | CD-ROM | Britisk engelsk. Se nettsiden |
Brown Corpus | BL | Nei | 1,0 mill. | Nettverk | Amerikansk engelsk |
CHILDES | BL | ? | ? | CD-ROM | Barnespråk |
Helsinki Corpus | BL | Nei | 1,5 mill. | Nettverk | Diakrone tekster |
Kolhapur Corpus | BL | Nei | 1,0 mill. | Nettverk | Indisk engelsk |
LOB Corpus | BL | Nei | 1,0 mill. | Nettverk | Britisk engelsk |
London-Lund Corpus | BL | Nei | 50.000 | Nettverk | Transkribert tale |
North American News 1 | AV | Nei | 350 mill. | CD-ROM | Elektroniske nyheter |
North American News 2 | AV | Nei | 270 mill. | CD-ROM | Elektroniske nyheter |
Susanne Corpus | BL | Nei | 130.000 | Nettverk | Taggede tekster |
Penn Treebank 2 | GR | Ja | 2,6 mill. | CD-ROM | Taggede tekster |
Penn Treebank 3 | GR | Ja | 2-3 mill. ? | CD-ROM | Taggede tekster |
Diverse skjønnlitteratur | SK | Nei | 241.000 | Nettverk | Ulike forfattere |
Sherlock Holmes | SK | Nei | 915.000 | Nettverk | Av Sir A. C. Doyle |
OED | OB | Ja | ? | Nettverk | For ansatte og hovedfagsstudenter |
OALDCE | OB | Nei | ? | Nettverk | Ren tekstversjon |
WordNet | OB | ? | ? | Nettverk | |
Hansard Corpus | SA | Nei | 106 mill. | CD-ROM | Parallellkorpus (engelsk-fransk) |
1996 Broadcast News Transcripts | AV | Nei | 1,15 mill. | Nettverk | Transkriberte radionyheter |
Callhome American English Transcripts | BL | Nei | 330.000 | Nettverk | Transkriberte telefonsamtaler |
TDT2 English Text Corpus | AV | Nei | ? | CD-ROM | Transkriberte radionyheter |
TDT2 Text Data and Tables | AV | Nei | ? | CD-ROM | Flerspråklig korpus |
CSR III - Text | GR | Nei | ? | CD-ROM | Transkribert tale |
1996 Language Model Broadcast News Archive | TA | Nei | - | CD-ROM | Talegjenkjenning |
Air Traffic Information System 3 | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger) |
CallFriend American English: Southern Dialect | TA | Nei | - | CD-ROM | Talegjenkjenning (telefonsamtaler) |
CallFriend American English: Non- Southern Dialect | TA | Nei | - | CD-ROM | Talegjenkjenning (telefonsamtaler) |
CallHome American English | TA | Nei | - | CD-ROM | Talegjenkjenning (telefonsamtaler) |
CSR III - Speech | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger) |
CTIMIT | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger) |
DCIEM Sleep Deprivation Study | TA | Nei | - | CD-ROM | Mange bruksområder (dialoger) |
FFM TIMIT | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger) |
Kids Corpus | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger-barnespråk) |
KING Speech Corpus | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger) |
Multi-Michrophone | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger) |
NYNEX Phonebook | TA | Nei | - | CD-ROM | Talegjenkjenning (ord) |
1995 Broadcast News | TA | Nei | 10 timer | CD-ROM | Talegjenkjenning (radiosendinger) |
1996 English Broadcast News | TA | Nei | 104 timer | CD-ROM | Talegjenkjenning (radiosendinger) |
1997 English Broadcast News | TA | Nei | 97 timer | CD-ROM | Talegjenkjenning (radiosendinger) |
Resource Management | TA | Nei | - | CD-ROM | Talegjenkjenning (ord) |
Speech Under Simulated and Actual Stress | TA | Nei | - | CD-ROM | Talegjenkjenning (ord) |
Switchboard 2 Phase 1 | TA | Nei | 303 timer | CD-ROM | Talegjenkjenning (dialoger) |
Switchboard 1 Release 2 | TA | Nei | - | CD-ROM | Talegjenkjenning (dialoger) |
Switchboard 2 Phase 1 | TA | Nei | 303 timer | CD-ROM | Talegjenkjenning (dialoger) |
Switchboard 2 Phase 2 | TA | Nei | 373 timer | CD-ROM | Talegjenkjenning (dialoger) |
Tactical Speaker Identification Speech Corpus (TSID) | TA | Nei | - | CD-ROM | Talegjenkjenning (via radiolinjer) |
TRAINS | TA | Nei | 6,5 timer | CD-ROM | Talegjenkjenning (dialoger) |
Voicemail Corpus Part 1 | TA | Nei | 15 timer | CD-ROM | Talegjenkjenning (telefonbeskjeder) |
1998 HUB-4 - Broadcast News Evaluation - English Test Material | TA | Nei | 3 timer | CD-ROM | Talegjenkjenning (nyhetsmeldinger) |
COMLEX English Syntax Lexicon | OB | Nei | 38 000 leksemer | Nettverk | |
1999 HUB-4 - Broadcast News Evaluation - English Test Material | TA | Nei | 3 timer | CD-ROM | Automatisk transkripsjon |
Speech in Noisy Environment (SPINE) Training Audio | TA | Nei | 12 timer | CD-ROM | Talegjenkjenning (dialoger) |
Speech in Noisy Environment (SPINE) Evaluation Audio | TA | Nei | 9t 22m | CD-ROM | Talegjenkjenning (dialoger) |
Speech in Noisy Environment (SPINE) Evaluation Transcripts | BL | Nei | 10 timer | Nettverk | Automatisk transkripsjon |
Topic Detection and Tracking (TDT2) Careful Transcription Audio Corpus | TA | Nei | - | CD-ROM | Talegjenkjenning (nyhetsmeldinger) |
TDT2 Multilanguage Text Corpus Version 4.0 | AV | Nei | - | CD-ROM | Nyhetsmeldinger |
TDT3 Multilanguage Text Corpus | AV | Nei | - | CD-ROM | Nyhetsmeldinger |
2000 NIST Speaker Recognition Evaluation | TA | Nei | 148,9 timer | CD-ROM | Testkorpus for automatisk gjenkjenning av talere |
Prague Dependency Treebank 1.0 | BL | Nei | - | CD-ROM | Taggede og utaggede tekster; NLP-verktøy |
Speech in Noisy Environment 2 (SPINE2) Part 1 Audio (Training data) | TA | Nei | 7 timer | CD-ROM | Talegjenkjenning (dialoger) |
Speech in Noisy Environment 2 (SPINE2) Part 1 Audio (Development data) | TA | Nei | 3,5 timer | CD-ROM | Talegjenkjenning (dialoger) |
Speech in Noisy Environment 2 (SPINE2) Part 3 Audio (Evaluation data) | TA | Nei | 7 timer | CD-ROM | Talegjenkjenning (dialoger) |
Switchboard Cellular Part 1 Transcription | BL | Nei | Tilsvarende ca. 12 timer lyd | Nettverk | Transkriberte mobiltelefonsamtaler |
Switchboard Cellular Part 1 Audio | TA | Nei | Ca. 65 timer lyd | CD-ROM | Mobiltelefonsamtaler |
Switchboard Cellular Part 1 Transcribed Audio | TA | Nei | Ca. 12 timer lyd | CD-ROM | Mobiltelefonsamtaler |
RST Discourse Treebank | AV | Nei | 385 avisartikler | Nettverk | Merket med diskursstruktur |
Switchboard-2 Phase III Audio | AV | Nei | Ca. 222 timer lyd | CD-ROM | Materiale for utvikling og evaluering av taleteknologi |
1998 HUB5 English Evaluation | TA | Nei | - | CD-ROM | Materiale for evaluering av taleteknologi |
2001 HUB5 English Evaluation | TA | Nei | - | CD-ROM | Materiale for evaluering av taleteknologi |
1997 HUB4 English Evaluation Speech and Transcripts | TA | Nei | - | CD-ROM | Taledata og transkripsjoner for evaluering av systemer for automatisk talegjenkjenning |
Emotional Prosody Speech and Transcripts | TA | Nei | 9 timer lyd | CD-ROM | Taledata og transkripsjoner for forskning på emosjonsprosodi |
The AQUAINT Corpus of English News Text (6. januar 2003) | AV | Nei | ca. 375 mill. | CD-ROM | Nyhetstekster |
2001 NIST Speaker Recognition Evaluation Corpus (6. januar 2003) | TA | Nei | 26 timer | CD-ROM | Testkorpus for automatisk gjenkjenning av talere |
English Gigaword | AV | Nei | 26 timer | CD-ROM | Nyhetstekster |