| Navn | Type | Eget søkegrensesnitt | Ant. ord | Medium | Annet |
| Xinhua (1990-1991) | AV | Nei | 3,8 mill. | Nettverk | Fra European Corpus Initiative |
| Mandarin Chinese News Text Corpus | AV | Nei | 250 mill. | CD-ROM | Avistekster, radio, og elektroniske nyheter |
| CallHome Mandarin Chinese Transcripts | BL | Nei | 390.000 | Nettverk | Transkripsjoner til CallHome Speech |
| CallHome Mandarin Chinese Lexicon | OB | Nei | 45.000 | Nettverk | Basert på CallHome Speech |
| CallHome Mandarin Chinese Speech | TA | Nei | - | CD-ROM | Talegjenkjenning (dialoger) |
| CallFriend Mandarine Chinese-Mainland Dialect | TA | Nei | - | CD-ROM | Talegjenkjenning (dialoger) |
| CallFriend Mandarine Chinese-Taiwan Dialect | TA | Nei | - | CD-ROM | Talegjenkjenning (dialoger) |
| Hub5 Mandarin Transcripts | BL | Nei | 360.000 | Nettverk | Transkripsjoner til Mandarin Telephone Speech |
| Hub-5 Mandarin Telephone Speech Corpus | TA | Nei | - | CD-ROM | Utdrag fra CallFriend Mandarin |
| Mandarin Broadcast News Speech Transcripts | BL | Nei | 395.000 | Nettverk | Transkripsjoner til Mandarin Broadcast News |
| Mandarin Broadcast News Speech | TA | Nei | 41,5 timer | CD-ROM | Fra CCTV, KAZN og VOA |
| TDT2 Text Data and Tables | BL | Nei | ? | CD-ROM | Flerspråklig korpus |
| Baiyujing, Laoxin, Laoyan, Piaoyan | SK | Nei | ? | Nettverk | Ta kontakt med IØO hvis du ønsker tilgang |
| Taiwanese Putonghua Corpus | BL | Nei | - | CD-ROM | Talegjenkjenning, inneh. også transkripsjoner |
| TREC Mandarin Text REtrieval Conference - Mandarin Newswire | BL | Nei | - | CD-ROM | |
| Chinese Treebank Final Release | AV | Nei | - | Nettverk | Syntaktisk tagget korpus |
| Topic Detection and Tracking (TDT2) Mandarin Audio Corpus | TA | Nei | 6 måneder | CD-ROM | Topic Detection and Tracking (nyhetsmeldinger) |
| 1997NE HUB-4 Broadcast News Evaluation Non-English Test Material | TA | Nei | 1 time | CD-ROM | Talegjenkjenning (nyhetsmeldinger) |
| TDT3 Broadcast News Mandarin Corpus (Audio) | TA | Nei | ? | CD-ROM | Topic Detection and Tracking (nyhetsmeldinger) |
| TDT2 Multilanguage Text Corpus Version 4.0 | AV | Nei | - | CD-ROM | Nyhetsmeldinger |
| TDT3 Multilanguage Text Corpus | AV | Nei | - | CD-ROM | Nyhetsmeldinger |
| Chinese Treebank Version 2.0 | AV | Nei | - | Nettverk | Syntaktisk tagget korpus |
| 2001 HUB5 Mandarin Evaluation | TA | Nei | - | CD-ROM | Taledata for evaluering av systemer for automatisk talegjenkjenning |