CANS - amerikanordisk talespråkskorpus

CANS - amerikanordisk talespråkskorpus v.3.1 (Corpus of American Nordic Speech) består av intervjuer og samtaler med 246 amerikanorske informanter fra 57 steder i USA og Canada, i alt nesten 773 000 ord. I CANS v.3.1 finnes opptak og transkripsjoner fra Janne Bondi Johannessen et al. (2010 - 2016) sammen med eldre materiale fra Didrik Arup Seip og Ernst W. Selmer (1931), Einar Haugen (1942) og Arnstein Hjelde (1987, 1990, 1992). Versjon 3.1 ble publisert 27. januar 2021 og inneholder flere Haugen-opptak enn versjon 3.0.

Høsten 2017 ble korpuset utvidet med nesten 46 000 ord på amerikasvensk ytret av 22 informanter fra sju steder i USA. De svenske opptakene er gjort av Ida Larsson et al. (2011 - 2014).

Korpuset er fritt tilgjengelig for forskning gjennom innlogging med Feide eller Clarin. (Kontakt oss dersom du trenger et annet innloggingsalternativ.)

Intervjuene og samtalene i korpuset er transkribert på to måter: En lydnær transkripsjon og en ortografisk transkripsjon. Transkripsjonene er koblet til hverandre og til de originale lyd- og videofilene.

Last ned transkripsjonene
Transkripsjonene kan lastes ned. Noen er i tekstformat og noen i html-format.


Referer til korpuset slik:
Johannessen, Janne Bondi. 2015. The Corpus of American Norwegian Speech (CANS). In Béata Megyesi (ed.): Proceedings of the 20th Nordic Conference of Computational Linguistics, NODALIDA 2015, May 11-13, 2015, Vilnius, Lithuania. NEALT Proceedings Series 23.
Last ned artikkelen.

Ta også med URL-en til korpuset:
CANS - amerikanordisk talespråkskorpus v.3.1: https://tekstlab.uio.no/norskiamerika/korpus.html


Verktøy

Transkripsjon: De første opptakene ble transkribert med Transcriber. Nå transkriberes opptakene i ELAN.

Ortografisk transkripsjon: Oslo-translitteratoren - en halvautomatisk translitterator utviklet ved Tekstlaboratoriet - blir brukt for å lage ortografiske transkripsjoner av de lydnære originaltranskripsjonene. De ortografiske transkripsjonene blir korrekturlest mot lydfilene til slutt. Transliteratoren er brukt for både norske og svenske transkripsjoner.

Morfologisk tagging, norsk: Taggingen av Amerikanordisk talespråkskorpus er gjort med en Treetagger trent på korrekturlest output fra Oslo-Bergen-taggeren. Taggeren ble først utviklet for NoTa-korpuset. Taggeren har oppnådd 96,9 % (performance ved 10-fold cross validation).

Morfologisk tagging, svensk: Den svenske taggeren er en TnT-tagger, se Kokkinakis (2003). Taggeren er trent på det svenske PAROLE-korpuset og manuelt tagget, ortografisk älvdalsk fra Nordisk dialektkorpus.

De tekniske løsningene er opprinnelig laget for Nordisk dialektkorpus, og er finansiert av NorDiaSyn og NordForsk.

Søkeverktøy: Amerikanorsk talespråkskorpus er lagt inn i Glossa, et søkeverktøy utviklet ved Tekstlaboratoriet. Glossa kan tilby et moderne, enkelt og funksjonelt grensenitt. Glossa er finansiert av CLARINO-prosjektet.


Mer om transkripsjonene

Lydnær transkripsjon: I en lydnær transkripsjon (fonetisk) kommer dialekttrekkene tydelig fram i den skriflige representasjonen av talen, enten det dreier seg om fonologiske, morfologiske, syntaktiske eller leksikalske særdrag. En skriftlig gjengivelse av talen er en stor hjelp for språkforskere når det gjelder å få rask oversikt over materialet.

Den lydnære transkripsjonsmetoden er mer eller mindre den samme som den brukt for de norske opptakene i Nordisk dialektkorpus, som igjen er basert på Papazian og Hellelands Norsk talemål: Lokal og sosial variasjon (2005). Ingen spesialtegn er brukt i våre transkripsjoner, bare det norske/svenske alfabetet.

Ortografisk transkripsjon: Den ortografiske transkripsjonen er viktig fordi den gir en generalisering over variasjonen. Slik kan man gjøre generelle søk, og man kan bruke automatiske metoder, slik som tagging. Arbeidet med den ortografiske transkripsjonen går mye hurtigere enn med den lydnære, fordi vi benytter den halvuatomatiske dialekttranslitteratoren som oversetter fra den lydnære transkripsjonen til bokmål og for amerikanorsk engelsk der det trengs. Vi oversetter ord for ord slik at vi beholder syntaksen fra den lydnære transkripsjonen.


Eksempel på de to transkripsjonene

Fonetisk: d e haRd tu finn
Ortografisk: det er hard to finne

 

 

Fonetisk: vi sellt ri å rennta ut resst'n
Ortogr.: vi solgte noe av det og renta ut resten

 

 

 



Søt velkomst for de norske forskerne på opptakstur i Blair. Foto: K. M. Eide


Søk i korpuset



Janne og Signe med informanter i Sunburg.



Kontakt:
tekstlab-post@iln.uio.no