Andre korpus
Presseomtale
Kontakt

Norske talespråkskorpus

 

Korpusene nedenfor er en samling av ulike norske delkorpus som er helt eller delvis utviklet ved Tekstlaboratoriet - enten av Tekstlaboratoriet alene eller i samarbeid med andre. Korpusene varierer fra å være ferdigutviklet til å være under planlegging.

 

NoTa-Oslo
Norsk talespråkskorpus-Oslo-delen
Kort info
TAUS
Talemålsundersøkelsen i Oslo
Kort info
BigBrother Kort info
Nordisk dialektkorpus - Scandinavian Dialect Corpus Kort info
UPUS
Utviklingsprosesser i urbane språkmiljøer
Kort info

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

NoTa-Oslo [Norsk talespråkskorpus-Oslo-delen] Talemål fra Oslo og Oslo-området 2005 [Hjemmeside] [Søk]
- Ortografisk transkribert korpus med lenker til video- og lydfiler. Korpuset er også grammatisk tagget
- Informantene er representative mht. sosiolingvistiske variabler som kjønn, alder, utdannelse og bosted
- Tidspunkt for opptak: 2005
- Opptakssted: Oslo og kommunene omkring Oslo
- Antall informanter: 166
- Antall ord: 900 000
- Type materiale: Intervjuer og samtaler
- Status for prosjektet: noe arbeid på grensesnittet gjenstår samt litt korrekturlesing av transkripsjoner

TAUS [Talemålsundersøkelsen i Oslo] Talemål fra Oslo fra 1970-tallet [Hjemmeside] [Søk]
- Fonologisk transkribert korpus med lydfiler som ikke er lenket til transkripsjonene. Korpuset er også grammatisk tagget
- Ortografisk transkribert med lenke til lydfiler i 2006 - 2007
- Informantene er representative mht. sosiolingvistiske variabler som kjønn, alder, utdannelse og bosted
- Tidspunkt for opptak: 1970 - 1975
- Opptakssted: Oslo (Frogner og Vålerenga)
- Antall informanter: 59
- Antall ord: ca 212 000
- Type materiale: Intervjuer
- Status for prosjektet: ferdig, men koplingen mellom fonologisk transkribert korpus og ortografisk transkribert korpus er foreløpig ikke søkbar.

Big Brother [TV-show] Talemål fra unge voksne[Hjemmeside] [Søk]
- Ortografisk transkribert korpus delvis lenket til lyd- og videofiler
- Informantene er 10 unge voksne fra flere ulike steder i Norge
- Tidspunkt for opptak: 2001
- Opptakssted: Oslo
- Antall informanter: 10
- Antall ord: ca 550 000
- Type materiale: mange ulike situasjoner i BigBrother-huset
- Status for prosjektet: de siste episodene transkriberes sommeren 2008. Ferdigstilles med nytt grensesnitt i løpet av høsten.

Nordisk dialektkorpus - Scandinavian Dialect Corpus [Hjemmeside] [Søk]
- 2007 - 2008: Tekstlaboratoriet utvikler første del av et korpus og en talespråksdatabase for nordiske dialekter. Vi samler også inn materiale til et norsk dialektkorpus fra ca 50 målepunkter (dvs ca 200 informanter) rundt omkring i Norge. Innsamlingen skjer i samarbeid med våre partnere ved UiT og NTNU.

2008 - 2009: Den norske delen av dialektkorpuset utvides med 25 målepunkter.

Det norske dialektkorpuset vil bestå av intervjuer og samtaler som skal transkriberes og kobles sammen med tilsvarende lyd- og videoopptak. Det vil også bli brukt spørreskjemaer som skal kartlegge ulike syntaktiske forhold i informantenes talemål. Korpuset vil dessuten bestå av eldre transkripsjoner og opptak, for eksempel fra Målførearkivet ved ILN, dels i samarbeid med NO2014. De øvrige nordiske dataene vil leveres av våre samarbeidspartnere i ScanDiaSyn.

Nordisk dialektkorpus og database utvikles i samarbeid med våre partnere i det nordiske nettverket ScanDiaSyn og det nordiske senteret for fremragende forskning, NORMS. Korpuset og databasen vil bli allment tilgjengelig for forskning, og vil være et viktig verktøy for språkforskere nasjonalt og internasjonalt. Den norske delen av dialektkorpuset vil kunne utgjøre en del av en framtidig norsk språkbank.

 

UPUS [Utviklingsprosesser i urbane språkmiljøer] [Hjemmeside] [Søk]
- Korpus under utvikling ved UPUS-prosjektet ledet av Brit Mæhlum, INL, NTNU


Søkemuligheter i korpusene
De transkriberte korpusene er søkbare og til dels grammatisk tagget. Resultatene av søk blir presentert som konkordanser med påfølgende klikkbare video- og/eller lydfiler. Korpusene er søkbare via ord, deler av ord, grammatiske tagger og ulike typer hendelser (latter, hosting osv).

Fordi korpusene er representert både ved transkripsjon, annen annotasjon, video- og lydfiler, kan de være svært nyttige for mange typer av lingvistisk forskning: syntaks, morfologi, fonologi, fonetikk, semantikk, leksikografi, språkteknologi og datalingvistikk, diskursanalyse, sosiolingvistikk osv. Fordi korpusene har blitt tatt opp i forskjellige talestiusjoner med forskjellige typer mennesker, vil korpusene også være nyttige for flere typer forskning, f.eks. forskning i kunstig intelligens, psykologi og sosiologi.


Tillatelse til å bruke korpusene
Kontakt Tekstlaboratoriet for å få tillatelse til å bruke korpusene. Normalt vil du få tilgang i løpet av 24 timer. Enhver person som ønsker å bruke korpusene til forskning, kan få tillatelse til å bruke dem.

Andre talespråkskorpus

NoTa-Oslo i pressen

Avis:

Radio og TV:

Publikasjoner på Internett:

 

NoTa-seminaret i pressen

 

Big Brother-korpuset i pressen

Avis:

Radio og TV

 

UPUS-prosjektet i pressen

Se under prosjektets hjemmeside her.

 

ScanDiaSyn i pressen

Se under prosjektets hjemmeside her.

Kontakt

Kontakt tekstlab-post ved @iln.uio.no for mer informasjon.

 

  English
ILN