| Navn | Type | Eget søkegrensesnitt | Ant. ord | Medium | Annet |
| British National Corpus | BL | Nei | 100 mill. | CD-ROM | Britisk engelsk. Se nettsiden |
| Brown Corpus | BL | Nei | 1,0 mill. | Nettverk | Amerikansk engelsk |
| CHILDES | BL | ? | ? | CD-ROM | Barnespråk |
| Helsinki Corpus | BL | Nei | 1,5 mill. | Nettverk | Diakrone tekster |
| Kolhapur Corpus | BL | Nei | 1,0 mill. | Nettverk | Indisk engelsk |
| LOB Corpus | BL | Nei | 1,0 mill. | Nettverk | Britisk engelsk |
| London-Lund Corpus | BL | Nei | 50.000 | Nettverk | Transkribert tale |
| North American News 1 | AV | Nei | 350 mill. | CD-ROM | Elektroniske nyheter |
| North American News 2 | AV | Nei | 270 mill. | CD-ROM | Elektroniske nyheter |
| Susanne Corpus | BL | Nei | 130.000 | Nettverk | Taggede tekster |
| Penn Treebank 2 | GR | Ja | 2,6 mill. | CD-ROM | Taggede tekster |
| Penn Treebank 3 | GR | Ja | 2-3 mill. ? | CD-ROM | Taggede tekster |
| Diverse skjønnlitteratur | SK | Nei | 241.000 | Nettverk | Ulike forfattere |
| Sherlock Holmes | SK | Nei | 915.000 | Nettverk | Av Sir A. C. Doyle |
| OED | OB | Ja | ? | Nettverk | For ansatte og hovedfagsstudenter |
| OALDCE | OB | Nei | ? | Nettverk | Ren tekstversjon |
| WordNet | OB | ? | ? | Nettverk | |
| Hansard Corpus | SA | Nei | 106 mill. | CD-ROM | Parallellkorpus (engelsk-fransk) |
| 1996 Broadcast News Transcripts | AV | Nei | 1,15 mill. | Nettverk | Transkriberte radionyheter |
| Callhome American English Transcripts | BL | Nei | 330.000 | Nettverk | Transkriberte telefonsamtaler |
| TDT2 English Text Corpus | AV | Nei | ? | CD-ROM | Transkriberte radionyheter |
| TDT2 Text Data and Tables | AV | Nei | ? | CD-ROM | Flerspråklig korpus |
| CSR III - Text | GR | Nei | ? | CD-ROM | Transkribert tale |
| 1996 Language Model Broadcast News Archive | TA | Nei | - | CD-ROM | Talegjenkjenning |
| Air Traffic Information System 3 | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger) |
| CallFriend American English: Southern Dialect | TA | Nei | - | CD-ROM | Talegjenkjenning (telefonsamtaler) |
| CallFriend American English: Non- Southern Dialect | TA | Nei | - | CD-ROM | Talegjenkjenning (telefonsamtaler) |
| CallHome American English | TA | Nei | - | CD-ROM | Talegjenkjenning (telefonsamtaler) |
| CSR III - Speech | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger) |
| CTIMIT | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger) |
| DCIEM Sleep Deprivation Study | TA | Nei | - | CD-ROM | Mange bruksområder (dialoger) |
| FFM TIMIT | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger) |
| Kids Corpus | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger-barnespråk) |
| KING Speech Corpus | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger) |
| Multi-Michrophone | TA | Nei | - | CD-ROM | Talegjenkjenning (setninger) |
| NYNEX Phonebook | TA | Nei | - | CD-ROM | Talegjenkjenning (ord) |
| 1995 Broadcast News | TA | Nei | 10 timer | CD-ROM | Talegjenkjenning (radiosendinger) |
| 1996 English Broadcast News | TA | Nei | 104 timer | CD-ROM | Talegjenkjenning (radiosendinger) |
| 1997 English Broadcast News | TA | Nei | 97 timer | CD-ROM | Talegjenkjenning (radiosendinger) |
| Resource Management | TA | Nei | - | CD-ROM | Talegjenkjenning (ord) |
| Speech Under Simulated and Actual Stress | TA | Nei | - | CD-ROM | Talegjenkjenning (ord) |
| Switchboard 2 Phase 1 | TA | Nei | 303 timer | CD-ROM | Talegjenkjenning (dialoger) |
| Switchboard 1 Release 2 | TA | Nei | - | CD-ROM | Talegjenkjenning (dialoger) |
| Switchboard 2 Phase 1 | TA | Nei | 303 timer | CD-ROM | Talegjenkjenning (dialoger) |
| Switchboard 2 Phase 2 | TA | Nei | 373 timer | CD-ROM | Talegjenkjenning (dialoger) |
| Tactical Speaker Identification Speech Corpus (TSID) | TA | Nei | - | CD-ROM | Talegjenkjenning (via radiolinjer) |
| TRAINS | TA | Nei | 6,5 timer | CD-ROM | Talegjenkjenning (dialoger) |
| Voicemail Corpus Part 1 | TA | Nei | 15 timer | CD-ROM | Talegjenkjenning (telefonbeskjeder) |
| 1998 HUB-4 - Broadcast News Evaluation - English Test Material | TA | Nei | 3 timer | CD-ROM | Talegjenkjenning (nyhetsmeldinger) |
| COMLEX English Syntax Lexicon | OB | Nei | 38 000 leksemer | Nettverk | |
| 1999 HUB-4 - Broadcast News Evaluation - English Test Material | TA | Nei | 3 timer | CD-ROM | Automatisk transkripsjon |
| Speech in Noisy Environment (SPINE) Training Audio | TA | Nei | 12 timer | CD-ROM | Talegjenkjenning (dialoger) |
| Speech in Noisy Environment (SPINE) Evaluation Audio | TA | Nei | 9t 22m | CD-ROM | Talegjenkjenning (dialoger) |
| Speech in Noisy Environment (SPINE) Evaluation Transcripts | BL | Nei | 10 timer | Nettverk | Automatisk transkripsjon |
| Topic Detection and Tracking (TDT2) Careful Transcription Audio Corpus | TA | Nei | - | CD-ROM | Talegjenkjenning (nyhetsmeldinger) |
| TDT2 Multilanguage Text Corpus Version 4.0 | AV | Nei | - | CD-ROM | Nyhetsmeldinger |
| TDT3 Multilanguage Text Corpus | AV | Nei | - | CD-ROM | Nyhetsmeldinger |
| 2000 NIST Speaker Recognition Evaluation | TA | Nei | 148,9 timer | CD-ROM | Testkorpus for automatisk gjenkjenning av talere |
| Prague Dependency Treebank 1.0 | BL | Nei | - | CD-ROM | Taggede og utaggede tekster; NLP-verktøy |
| Speech in Noisy Environment 2 (SPINE2) Part 1 Audio (Training data) | TA | Nei | 7 timer | CD-ROM | Talegjenkjenning (dialoger) |
| Speech in Noisy Environment 2 (SPINE2) Part 1 Audio (Development data) | TA | Nei | 3,5 timer | CD-ROM | Talegjenkjenning (dialoger) |
| Speech in Noisy Environment 2 (SPINE2) Part 3 Audio (Evaluation data) | TA | Nei | 7 timer | CD-ROM | Talegjenkjenning (dialoger) |
| Switchboard Cellular Part 1 Transcription | BL | Nei | Tilsvarende ca. 12 timer lyd | Nettverk | Transkriberte mobiltelefonsamtaler |
| Switchboard Cellular Part 1 Audio | TA | Nei | Ca. 65 timer lyd | CD-ROM | Mobiltelefonsamtaler |
| Switchboard Cellular Part 1 Transcribed Audio | TA | Nei | Ca. 12 timer lyd | CD-ROM | Mobiltelefonsamtaler |
| RST Discourse Treebank | AV | Nei | 385 avisartikler | Nettverk | Merket med diskursstruktur |
| Switchboard-2 Phase III Audio | AV | Nei | Ca. 222 timer lyd | CD-ROM | Materiale for utvikling og evaluering av taleteknologi |
| 1998 HUB5 English Evaluation | TA | Nei | - | CD-ROM | Materiale for evaluering av taleteknologi |
| 2001 HUB5 English Evaluation | TA | Nei | - | CD-ROM | Materiale for evaluering av taleteknologi |
| 1997 HUB4 English Evaluation Speech and Transcripts | TA | Nei | - | CD-ROM | Taledata og transkripsjoner for evaluering av systemer for automatisk talegjenkjenning |
| Emotional Prosody Speech and Transcripts | TA | Nei | 9 timer lyd | CD-ROM | Taledata og transkripsjoner for forskning på emosjonsprosodi |
| The AQUAINT Corpus of English News Text (6. januar 2003) | AV | Nei | ca. 375 mill. | CD-ROM | Nyhetstekster |
| 2001 NIST Speaker Recognition Evaluation Corpus (6. januar 2003) | TA | Nei | 26 timer | CD-ROM | Testkorpus for automatisk gjenkjenning av talere |
| English Gigaword | AV | Nei | 26 timer | CD-ROM | Nyhetstekster |