Fra prosjektsøknaden til NoTa-Oslo

Oppbyggingen av NoTa-Oslo

Vi ønsker å bygge opp NoTa-Oslo etter malen til det nederlandske talespråkskorpuset Corpus Gesproken Nederlands – CGN siden vi mener deres oppbygging av korpuset er metodologisk og vitenskapelig forsvarlig. NoTas mål er ikke å lage et dialektkorpus, men å få en oversikt over talemål i de mest folkerike områdene i Norge. NoTa-Oslo vil være den største delen av det nasjonale NoTa-prosjektet, med forholdet 2:1:1 for de tre hovedregioner Oslo, Bergen og Trondheim. Vi vil bruke CGN spesielt for å få den samme relative fordelingen av teksttyper, selv om vi også vil avvike fra CGN, for det første fordi vi bare vil konsentrerere oss om dialog, ikke monolog, for det andre fordi vi bare velger spontantale – altså uten manuskript, og for det tredje fordi vi bare vil konsentrere oss om private, altså ikke offentlige, situasjoner.

NoTa-Oslo skal være et flerbrukskorpus. Det betyr at det skal kunne tilfredsstille ulike forskningsformål. Det kan virke problematisk at ett og samme korpus skal kunne tilfredsstille flere formål, men vi synes ikke det. Vi har erfaring i bruk av korpus, og ser at store korpus som er tilrettelagt på en hensiktsmessig måte, kan tilfredsstille mange formål – det gjelder både norske og utenlandske korpus. Forutsetningen er at korpuset fortsetter å være tilgjengelig i fremtiden, at det er bygd opp på en måte som gjør det mulig å legge inn ny annotering, og at det er laget i overensstemmelse med juridiske kriterier.
For å gi en nærmere beskrivelse av NoTa-Oslos innhold, er det hensiktsmessig å innføre begrepet informantmodul. En informantmodul er det minimum av informanter vi må ha for hver av kategoriene i korpuset, ut fra sosiolingvistiske variabler og i samsvar med KKD-rapporten (Kultur- og kirkedepartementets rapport (2002) om samling av språkteknologiressurser, s. 22):

Informantmodul

Antall aldersgrupper:	3
Antall kjønn:	2
Antall utdannelsesbakgrunner:	3
Informanter pr. celle:	4
Samlet antall informanter pr modul:	72

NoTa som helhet trenger fire informantmoduler (2:1:1, for hhv. Oslo, Bergen og Trondheim). For å oppnå en full ekvivalens med det nederlandske korpuset, ville tallene vært som nedenfor:

					Bergen	Trondheim	Oslo
Dialog: 10 810 000 ord	Privat	Spontan	Direkte	Samtale ansikt til ansikt 4 000 000	1 000 000	1 000 000	2 000 000
			Direkte	Intervju 690 000	230 000	230 000	230 000
			Fjern	Telefon 4 000 000	1 000 000	1 000 000	2 000 000
			Fjern	Forretning 355 000	90 000	90 000	175 000
	Offentlig	Kringkastet	Noe manus	Intervju Diskusjon 980 000	230 000	230 000	520 000
		Ikke kringkastet	Uten manus	Debatt 505 000	130 000	130 000	245 000
		Ikke kringkastet	Uten manus	Foreles. 460 000	110 000	110 000	240 000
Monolog Ulike typer 3 000 000 ord

Imidlertid mener vi at det i første omgang er forsvarlig med mindre, nemlig anslagsvis 3,5-4 millioner ord for NoTa som helhet (som tilsvarer forholdet 2 mill:1 mill:1 mill, for henholdsvis Oslo, Bergen og Trondheim). Dette er i forvissning om at korpuset vil bli gradvis større etter som andre og kanskje mindre prosjekter gjør tilsvarende opptak i andre dialektområder. Vi har da begrenset oss til de skraverte feltene over: dialog med spontan tale, både direkte og fjern. Oversikten nedenfor viser hvordan utregningen er kommet i stand, når man tar utgangspunkt i en times spontan direktesamtale ansikt til ansikt mellom to informanter, dvs. 30 minutter på hver, noe som normalt tilsvarer 5000 ord.

Antall ord pr. informant:

Ansikt-til ansikt:	5000 ord
Telefon:	5000 ord
Intervju:	1250 ord
Forretning:	500 ord
= Til sammen	11 750 ord

Antall ord pr modul:
11 750 ord * 72 (informanter) = 846 000 ord

Antall ord i NoTa-korpuset:
846 000 ord * 4 (geografiske moduler) = 3 384 000 ord

Fordelingen innenfor NoTa-korpuset blir slik, og Oslo-delen (NoTa-Oslo) er lengst til høyre:

					Bergen	Trondheim	Oslo
Dialog: 3 384 000 ord	Privat	Spontan	Direkte	Samtale ansikt til ansikt 1 440 000	360 000	360 000	720 000
			Direkte	Intervju 360 000	90 000	90 000	180 000
			Fjern	Telefon 1 440 000	360 000	360 000	720 000
			Fjern	Forretning 144 000	36 000	36 000	72 000

Innsamlingsmetode

Det er viktig at talespråkskorpuset representerer naturlig tale i naturlige situasjoner, der det er påkrevet. Det er derfor tvilsomt om den klassiske måten å samle talemål på, nemlig intervjuer, er den beste. En mulig metode er den som ble benyttet i The British National Corpus (BNC), hvor utvalgte personer ble utstyrt med en mikrofon og båndopptaker i alle dagligsituasjoner. Men dette er ikke lett å forene med behovet for at opptakene skal ha en tilstrekkelig lydlig kvalitet for instrumentell, fonetisk analyse. Videre blir det lett problematisk i forhold til juridiske kriterier (jf. Betenkningen over juridiske problemstillinger, se ref .). Det må derfor utarbeides grundige retningslinjer for opptakene.

At spontantaledataene skal være ”private”, betyr ikke at de ikke kan foregå i det offentlige rom. For både språkforskning og språkteknologiforskning er det viktig å få med dialogdata, samt at dataene er sammenlignbare. Vi satser derfor på opptak av ulike aktiviteter: (ekte eller oppsatte) situasjoner i reisebyrå, pizzarestaurant o.a. Taleteknologien trenger også å vite hvordan mennesket snakker i kontakt med en maskin, så vi tar også med noen ”Wizard of Oz”-eksperimenter, med tanke på uttale, formuleringer og turtaking.

Transkripsjon og grammatisk annotering

Det er mange måter å transkribere talespråkskorpus på, og ingen av dem er perfekte. En uttalenær, fonetisk transkripsjon kan være nyttig for noen fonologiske studier, men det vil alltid være en mulighet for at akkurat de fenomenene som en bestemt fonolog er interessert i, likevel ikke er markert. Det vil også gjøre korpuset vanskelig å søke i og vanskelig å gjennomføre konsekvent, med forskjellige transkribører med ulik faglig og teoretisk bakgrunn.
En rent ortografisk transkripsjon vil løse mange av disse problemene. Den vil være lett å utføre, den vil gjøre det lett å søke i korpuset, den vil være lett å tagge automatisk, og lett å lese. Vi velger derfor en slik transkripsjon, basert på de erfaringer vi har gjort ( Big Brother-transkripsjonene 2001/2 ), samt som er anbefalt i KKD-rapporten (s.22). Noen små deler av materialet vil imidlertid bli transkribert fonetisk, i tråd med CGN.

For å transkribere effektivt, er det nødvendig med et godt transkripsjonsverktøy. Vi har vurdert flere: Praat (brukt i CGN ), Multitool (brukt i det svenske talespråkskorpuset Göteborg Spoken Language Corpus GSLC ) og Soundindex . Alle gir nokså gode muligheter for å spole frem og tilbake digitalt i det programmet hvor transkripsjonen skrives inn, men vi har kommet til at Soundindex er mest hensiktsmessig. Det er gratis (som de andre), men kommer også med åpen kildekode, slik at det kan tilpasses ens egne formål, noe som ikke minst muliggjøres ved at det er skrevet i språket TCL. Tekstlaboratoriet har brukt det på Big Brother-korpuset, og har hatt nytte av bl.a. å kunne definere egne hurtigtaster for frekvente tagger.

Grammatisk annotering av talespråk er vanskelig å gjøre med regelbaserte metoder, fordi man ikke kjenner talespråkets grammatikk – slik kunnskap er jo nettopp et av målene med prosjektet. Man må derfor bruke statistiske metoder. Tekstlaboratoriet har erfaring i å bruke statistiske metoder for grammatisk tagging, og vil bruke Hidden Marcov Models - og Memory Based Learning-metoder for at vi skal oppnå grammatisk tagging også av NoTa-Oslo.

Søkegrensesnitt

Korpuset vil gjøres tilgjengelig for andre forskere gjennom et websøkbart tekstkorpus, hvor det søkes i en transkribert tekst, med muligheter for å gå fra teksten til digitaliserte talesekvenser av transkripsjonen. Videre vil selve opptakene og transkripsjonene også i sin helhet være tilgjengelige for forskere. I tillegg til å bli transkribert, vil tekstene på sikt annoteres på ulike måter, med i denne omgang først og fremst med grammatisk ordklassetagging.

Drift og vedlikehold av NoTa-Oslo vil, i likhet med det som er planlagt for det nasjonale NoTa når dette en gang finner sin finansiering, skje ved Tekstlaboratoriet ( Institutt for lingvistiske fag , Universitetet i Oslo). Tekstlaboratoriet har lang erfaring i å drifte korpus for det nasjonale og internasjonale forskersamfunnet: For eksempel har Oslo-korpuset av taggede, norske tekster registrerte brukere i 23 land, og The Oslo Corpus of Bosnian Texts brukere i 29 land. Tekstlaboratoriet har også ekspertise, teoretisk, praktisk og teknisk, når det gjelder grammatisk annotering, og disponerer flere taggersystemer. Tekstlaboratoriet har spesialisert seg på løsninger (annotering, søking, innsamling og tilrettelegging) for ulike typer korpus til ulike formål og brukere, og er nok en av de enhetene i landet som har størst samlet ekspertise på dette området.

Framdriftsplan

Milepæler i prosjektet:

Prosjektperiode	2004				2005
Milepæler fordelt over prosjektperioden	1	2	3	4	1	2	3	4
Ansette vitenskapelig assistent og opptaksassistenter			x	x
Innkjøp av utstyr, finne informanter			x	x	x	x
Opptak			x	x	x	x	x	x
Transkripsjon				x	x	x	x	x
Grammatisk annotering					x	x	x	x
Teknisk konstruksjon, webløsninger, etc.			x	x	x	x	x	x

Verdien av et norsk talespråkskorpus

Et talespråkskorpus er en infrastruktur som vil bøte på et hittil udekket nasjonalt behov. Et slikt korpus er nødvendig for å benytte moderne metoder og teorier i språkteknologi og språkforskning, samt språkundervisning, og uvurderlig for å kunne utvikle gode taleteknologiprodukter for norsk, som hjelpeverktøy for funksjonshemmede, automatiske opplysningstjenester over telefon og automatiske dikteringsprogrammer. En rekke andre land har allerede utviklet slike korpus for sine språk, også i Norden. I Norge er et nasjonalt korpus utredet flere ganger, jf. Kultur- og kirkedepartementets rapport (2002) om samling av språkteknologiressurser ( KKD-rapporten ). Vår plan er at NoTa-Oslo vil gå inn som en del av nasjonalkorpuset Norsk Språkbank. Det er særdeles viktig å komme i gang med dette arbeidet snarest, fordi mye av forskningen innenfor språkvitenskap og språkteknologi lider under mangelen på talespråksdata.

Språkforskning
Språkforskning basert på korpus har utviklet seg i stort tempo internasjonalt de siste to tiårene, og det har blitt bygget opp relativt store skriftspråkskorpus for norsk, med gode søkegrensesnitt og grammatisk annotering. Språkforskere har oppdaget nytten og gleden ved å benytte denne typen korpus, som gir rask tilgang til store mengder relevante data.

Imidlertid er det flere opplagte begrensninger ved skriftspråkskorpus. Språkets primære medium er det lydlige. Vi vet at talespråk skiller seg fra skriftspråk på grunnleggende måter, som favner alt fra grammatikk til leksikon. Talt språk foregår i helt andre kanaler enn skrevet språk, og for helt andre formål. Likevel er det lite vi vet om norsk talespråk. Behovet for å kunne studere talespråk med korpusmetoder, som i forhold til andre metoder er uovertrufne når det gjelder datamengde, muligheten for rask datainnsamling, kostnadseffektivitet o.a., er påtrengende. Talespråkskorpus er nyttig og nødvendig for alle områder innen lingvistikken - syntaks, morfologi, pragmatikk, fonologi og leksikon. Noen eksempler på forskningsspørsmål kan være:

• I hvilken grad kan konstituenter som subjekt og objekt utelates i talesituasjonen ( Tru'kke det )?
• Hva er bruksbetingelsene for partikler som ja, nei når de brukes først i setningen som en diskursmarkør ( Hvordan har du det? Ja/Nei, jeg har jo litt vondt i skulderen, da. )?
• Hvor utbredt er assimilasjon mellom fonemer over ordgrenser i forhold til ordintern assimilasjon, særlig mellom /r/ og alveolare plosiver, samt /s/ ( har sagt -> /hasakt/ el. /haSakt/ el. /harsakt/ vs. hårstrikk -> /ho:rstrik/ el. /ho:Strik/ )?

Alle spørsmål om talespråk som språkvitenskapen kan besvare v.h.a. et talespråkskorpus, vil også være sentrale for språkteknologi: Jo mer man for eksempel vet om hvilke konstituenter som faktisk finnes i talespråk, jo lettere blir det å gjenkjenne den grammatiske strukturen i talte setninger.

Allerede i dag foregår det forskning på talespråk, særlig innenfor diskursanalyse og sosiolingvistikk. Men tilgangen til datamateriale utgjør et akutt problem,. Mye moderne lingvistisk forskning, f.eks. kognitiv lingvistikk med lingvister som J. Bybee og R. Langacker, er avhengig av frekvensdata for talespråk for å kunne beregne hyppigheten av ulike språklige enheter. For en rekke språk foreligger allerede talespråkskorpora med tilhørende frekvensordbøker og -beregninger. Det er på tide at det også bygges opp tilsvarende for norsk. For å kunne beregne frekvens er det helt nødvendig at korpuset er av en viss størrelse. Det er også viktig at ulike kommunikative aktiviteter er representert, og med nok data for hver, slik at frekvensberegningene ikke kan anses for tilfeldige. Moderne syntaksforskning, også innenfor generative rammeverk, har vendt seg mer og mer i retning av dialektforskning, og undersøkelser av likheter og forskjeller mellom nærstående språk, også talespråk.

NoTa-Oslo vil utgjøre en systematisk ryggrad for fremtidig forskning på norsk talemål. Vi er sikre på at NoTa-Oslo vil innebære en nødvendig revitalisering av forskning omkring norsk språk, både under oppbyggingsfasen (med innsamling, transkripsjon) og selvsagt etter at korpuset er klart, på lignende måte som man så med TAUS (Talemålsundersøkelsen i Oslo)-materialet på 1970-tallet.

Språkteknologi
Oppbyggingen av ressurser som kan brukes ved utvikling av språkteknologiske produkter er svært viktig. Dette kommer til syne i flere nyere rapporter, Handlingsplan for norsk språk og IKT , 2001, utgitt av Norsk Språkråd, og Språkteknologi i Norge - eksisterende og påkrevet forskning , 2000, utgitt av Norges forskningsråd, Norsk språkbank fra 1999, Strategi for elektronisk innhold , 2002, utgitt av Nærings- og handelsdepartementet, samt KKD-rapporten , 2002. To av personene i referansegruppen for NoTa har vært sentrale i flere av de nevnte rapportene (Ruth V. Fjeld og Torbjørn Svendsen).

NoTa er tenkt å inngå i Norsk Språkbank. I KKD-rapporten (§ 4.4.1) understrekes viktigheten av taledata for taleteknologi. Ca. halvparten av den totale mengden taledata bør være spontantale, understrekes det (800 timer av totalt 1742 timer). NoTa-Oslo planlegger 72 timer transkribert spontantale, som altså vil utgjøre en grunnstamme i en fremtidig Norsk Språkbank.

Språkteknologi som bare retter seg mot skriftspråk, behøver ikke noe talespråkskorpus. Men anvendelser som diktering av elektroniske journaler i helsesektoren, automatiske opplysningstjenester over telefon, taleverktøy for funksjonshemmede, og generelt alle anvendelser som skal forholde seg til tale for forståelse eller produksjon, krever kunnskap om talespråk, noe som bare kan fås gjennom et stort talespråkskorpus, samt gjennom forskning på den empirien et slikt korpus utgjør.
Det kan være delte meninger om interaksjon mellom menneske og maskin bør ha som mål å være basert på naturlig spontantale i steden for en mer standardisert, formalisert type talemåte. Vi mener at det endelige målet bør være at maskinen tilpasser seg mennesket, snarere enn omvendt. Men i alle fall er det viktig for taleteknologene å vite hvordan talespråk og talekommunikasjon faktisk foregår, slik at man kan finne ut hvor mulige feilkilder vil ligge, og også for å legge en eventuell norm så nær autentisk talemål som mulig.

Innenfor språkteknologi generelt har statistiske metoder (som Memory-based learning, skjulte Markov-modeller, maksimum entropi-modeller) en sterk stilling. Det sier seg selv at for å kunne modellere språk med slike metoder, er det nødvendig med en anselig mengde data. Når det gjelder talespråk, er faktisk statistiske metoder for mange formål for øyeblikket de eneste mulige. Når man ikke vet hvordan datamaterialet faktisk ser ut, er det umulig å basere seg på lingvistisk motiverte regelbaserte metoder. Og når det gjelder talespråkets grammatikk, f.eks., vet man svært lite. Verktøy som utvikles på grunnlag av probabilistiske metoder ut fra et talespråkskorpus er uvurderlige, ikke bare for videre språkteknologiske anvendelser, men også for språkforskning. Eksempelvis kan en grammatisk tagger utviklet på denne måten utnyttes til å tagge opp store mengder talespråksdata, som igjen kan brukes av språkforskeren til å tilveiebringe ny kunnskap.

For at korpuset skal være nyttig for taleteknologi, er kvaliteten på de lydlige opptakene vesentlige. Vi vil derfor sørge for at så mye som mulig av materialet er av en slik lydkvalitet at det kan danne grunnlag for akustiske analyser.

Språkundervisning
Språkundervisning er ikke det primære målet for NoTa-Oslo. Men det er klart et slikt korpus kan være nyttig for også det formålet. Med nyere undervisningsmetoder, f.eks. fjernundervisning hvor Internett står helt sentralt, er korpusbasert språk- og grammatikkundervisning en naturlig del. Det er et savn at studentene bare kan foreta undersøkelser om skriftspråk. Ellers vil økt kunnskap om talespråk være nyttig i undervisning av utlendinger som skal lære norsk. Korpuset kan også brukes til uttaleøvelser, med koblingen av lydfiler til den transkriberte teksten.

Litteratur- og andre referanser

Kristoffersen, G. og A.-K. Molde. 1999. Transkripsjonsveiledning. Veiledning i forbindelse med transkripsjon av
Norsk Talemålskorpus , Universitetet i Bergen.
Johannessen, J.B., P. Eriksen og L. Nygaard. 2002. Transkripsjonsveiledning for Big Brother-korpuset.
Goedertier, W. & S. Goddijn. Protocol voor Orthografische Transcriptie. Internal publication Spoken Dutch Corpus project. Veiledning i forbindelse med transkripsjon av Corpus Gesproken Nederlands.

Rapporter
Betenkning over juridiske problemstillinger knyttet til samling og tilgjengeliggjøring av norske språkteknologiressurser. Rapport ved Simonsen Føyen Advokatfrima DA, mai 2002.
Handlingsplan for norsk språk og IKT . 2001. Norsk Språkråd.
Norsk språkbank. 1999. Rapport. NTNU, UiB, UiO, Telenor FoU, SINTEF Tele og data, Nordisk Språkteknologi.
Språkteknologi i Norge - eksisterende og påkrevet forskning, 2000. Norges forskningsråd
Strategi for elektronisk innhold . 2002. Rapport fra NHD.
Samling og tilgjengeleggjering av norske språkteknologiressursar. Rapport av Prosjektgruppe oppnemnd av Kultur- og kyrkjedepartementet, oktober 2002.

Internettsider for tekstkorpus
Aviskorpus , HIT-senteret, UiB
Big Brother-korpuset , Tekstlaben, ILF, UiO
Corpus Gesproken Nederlands
Göteborg Spoken Language Corpus GSLC
Dansk talesprog - BySoc
En elektronisk database over norske språklyder
Nordtalk-netteverket
Norsk talemålskorpus i Bergen (Talesøk)
Norsk Språkbank
Oslo-korpuset av taggede norske tekster, bokmål og nynorsk , Tekstlaben, ILF, UiO
Soundindex
Tekstlaboratoriet, andre prosjekter, se hjemmesiden
The Oslo Corpus of Bosnian Texts , Tekstlaboratoriet, ILF, UiO
The British National Corpus

Presseomtale, Big Brother-korpuset:
Uniforum
Aftenposten