Navn | Type | Eget søkegrensesnitt | Ant. ord | Medium | Annet |
Xinhua (1990-1991) | AV | Nei | 3,8 mill. | Nettverk | Fra European Corpus Initiative |
Mandarin Chinese News Text Corpus | AV | Nei | 250 mill. | CD-ROM | Avistekster, radio, og elektroniske nyheter |
CallHome Mandarin Chinese Transcripts | BL | Nei | 390.000 | Nettverk | Transkripsjoner til CallHome Speech |
CallHome Mandarin Chinese Lexicon | OB | Nei | 45.000 | Nettverk | Basert på CallHome Speech |
CallHome Mandarin Chinese Speech | TA | Nei | - | CD-ROM | Talegjenkjenning (dialoger) |
CallFriend Mandarine Chinese-Mainland Dialect | TA | Nei | - | CD-ROM | Talegjenkjenning (dialoger) |
CallFriend Mandarine Chinese-Taiwan Dialect | TA | Nei | - | CD-ROM | Talegjenkjenning (dialoger) |
Hub5 Mandarin Transcripts | BL | Nei | 360.000 | Nettverk | Transkripsjoner til Mandarin Telephone Speech |
Hub-5 Mandarin Telephone Speech Corpus | TA | Nei | - | CD-ROM | Utdrag fra CallFriend Mandarin |
Mandarin Broadcast News Speech Transcripts | BL | Nei | 395.000 | Nettverk | Transkripsjoner til Mandarin Broadcast News |
Mandarin Broadcast News Speech | TA | Nei | 41,5 timer | CD-ROM | Fra CCTV, KAZN og VOA |
TDT2 Text Data and Tables | BL | Nei | ? | CD-ROM | Flerspråklig korpus |
Baiyujing, Laoxin, Laoyan, Piaoyan | SK | Nei | ? | Nettverk | Ta kontakt med IØO hvis du ønsker tilgang |
Taiwanese Putonghua Corpus | BL | Nei | - | CD-ROM | Talegjenkjenning, inneh. også transkripsjoner |
TREC Mandarin Text REtrieval Conference - Mandarin Newswire | BL | Nei | - | CD-ROM | |
Chinese Treebank Final Release | AV | Nei | - | Nettverk | Syntaktisk tagget korpus |
Topic Detection and Tracking (TDT2) Mandarin Audio Corpus | TA | Nei | 6 måneder | CD-ROM | Topic Detection and Tracking (nyhetsmeldinger) |
1997NE HUB-4 Broadcast News Evaluation Non-English Test Material | TA | Nei | 1 time | CD-ROM | Talegjenkjenning (nyhetsmeldinger) |
TDT3 Broadcast News Mandarin Corpus (Audio) | TA | Nei | ? | CD-ROM | Topic Detection and Tracking (nyhetsmeldinger) |
TDT2 Multilanguage Text Corpus Version 4.0 | AV | Nei | - | CD-ROM | Nyhetsmeldinger |
TDT3 Multilanguage Text Corpus | AV | Nei | - | CD-ROM | Nyhetsmeldinger |
Chinese Treebank Version 2.0 | AV | Nei | - | Nettverk | Syntaktisk tagget korpus |
2001 HUB5 Mandarin Evaluation | TA | Nei | - | CD-ROM | Taledata for evaluering av systemer for automatisk talegjenkjenning |