Konferanse: Språkteknologi på norsk


Noen taggere på Lysebu: Jan Tore Lønning, Kristin Hagen, Anders Nøklestad og Lars Jørgen Tvedt. (I vogna: lille Gina)

Noen taggere på Lysebu: Jan Tore Lønning, Kristin Hagen, Anders Nøklestad og Lars Jørgen Tvedt. (I vogna: lille Gina)

Den aller første konferansen om språkteknologi på norsk ble avviklet 12.-13. oktober 1998 på Lysebu. Arrangøren var NIFST (Norsk infrastruktur for språkteknologi), en sammenslutning av endel nasjonale forskningsmiljøer, deriblant Tekstlaboratoriet, og noen næringslivsinteresser. Konferansen ble også støttet av det politiske Norge, nemlig Kulturdepartementet og Nærings- og handelsdepartementet. Formålet med konferansen var å rette søkelyset mot norsk språk og hva som finnes av språkteknologiske produkter, hvem som står for utviklingen av slike, og bli kjent - gjerne med tanke på videre samarbeid. Det var første gang både forskningsmiljøer, næringsliv og politisk ledelse møttes i en slik skala, og meget vellykket, med ca. 100 deltagere.

Etterhvert flommer det over av produkter for større språk, slik som det språket som snakkes av vårt granneland i vest. Stavekontroll og synonymordhjelp har man en viss kjennskap til i Norge, men vi ligger langt tilbake når det gjelder f.eks. dikteringssystemer, talebaserte dialogsystemer, systemer for maskinoversettelse eller automatisk skriving av sammendrag av dokumenter.

Tore Burheim åpner konferansen

Tore Burheim åpner konferansen

Hvilke muligheter som finnes, ble demonstrert av Jo Lernout fra firmaet Lernout & Houspie (L&H), som med sine 1300 fast ansatte er et meget stort programvarefirma. Vi fikk se et tekstbehandlingssystem hvor man kunne snakke til maskinen istedenfor å trekke ned menyer, merke av tekst osv. Det som kanskje var mest imponerende, var at man kunne snakke inn den teksten som man ville at tekstbehandleren skulle skrive, og at man fritt når som helst kunne avbryte seg selv og - uten å endre stemmen - gi en eller annen kommando som siste ord kursiv eller gå til begynnelsen, merk avsnittet og velg en større font. Så kunne man fortsette dikteringen uten videre. Når sant skal sies, er det uklart i hvilken grad programmet kunne brukes i det virkelige liv, men det ga en fantastisk pekepinn om mulighetene i fremtiden.

Vi fikk også se hvordan en syntetisk talemaskin kunne lese e-post høyt, og forholde seg til muntlige beskjeder om å gjenta en linje, lese første linje av hvert e-brev, hoppe til siste e-brev osv. De talebaserte verktøyene gir nye og uante muligheter for funksjonshemmede, men også vi andre kan glede oss til at dette blir standard. Tenk å kunne høre gjennom e-posten sin og samtidig gjøre noe praktisk som å rydde på skrivebordet!

Jo Lernout holder innledningsforedraget

Jo Lernout holder innledningsforedraget

Kåre Lilleholt i Norsk Språkråd fremholdt at vi må kunne kreve at norsk skal "haldast oppe som fullgodt bruksspråk på alle livsområde". Det gjelder at vi skal kunne bruke norsk, møte norsk, norsken skal være god og rett, rik og nyansert, og vi skal ha norsk fagterminologi. Han trodde ikke at engelsken ville ta over som språk i Norge, men uten norske språkteknologiske verktøy er det klart at vi etterhvert ikke kan oppfylle målet om norsk som fullgodt bruksspråk. Lilleholt var ellers spesielt opptatt av nynorskens skjebne. Vil man utvikle verktøy også for nynorsk?

Taleteknologi var det viktigste for Oddvar Hesjedal fra Telenor. Han fremhevet at språkteknologi generelt, og talebasert brukergrensesnitt spesielt, er en viktig konkurransefaktor for dem. Talebaserte brukergrensesnitt krever store ressurser, her inngår både språkanalyse, dialogkontroll, meldingsgenerator og talesyntese. Men Telenor har likevel kommet et stykke på vei. De som har Telenor Internett-abonnement kan faktisk få e-posten lest av roboten Robert. Den samme roboten kan vi alle få snakke med på telefonen. Hesjedal understreket at det har vært liten offentlig satsing på norsk språkteknologi, og at Norge blir liggende etter. Her vil undertegnede skyte inn at Telenor på tross av dette har ganske gode resultater. Jeg har selv prøvd å snakke med roboten Robert, på telefonnummer 63 84 85 30, for omvendt nummeropplysning. Robert ba meg taste inn et telefonnummer, og oppga så navn og adresse på de som sto oppført på dette nummeret. Han var ganske god i norsk, men bør kanskje læres opp i å gjenkjenne utenlandske navn? Ihvertfall gikk det helt galt ved uttalen av navnet til husstandens engelske person. Men han visste ihvertfall at aa er det samme som å;. Hvis noen lurer på det, kan jeg også opplyse at han uttalte Oslo på majoritetens vis - Oschlo. Robert var også i stand til å oppgi ankomsttider fra NSB, nummer 63 84 84 90, ved at jeg muntlig anga stasjonene fra og til. Han forsto både Sandvika, Gardermoen, Ski og Ås, selv om jeg uttalte dem på vanlig måte med stumme bokstaver, assimilasjoner o.a. (Jeg må innrømme at jeg ikke har sjekket om tidene han oppga var riktige, slik at jeg strengt tatt ikke vet om han tolket meg rett.)

Torbjørn Nordgård fra NTNU oppsummerte hva som foregår av språkteknologisk forskning og utdanning ved universitetene. Det har vært en viss satsing helt siden 1960-tallet. For tiden er det fire miljøer som er aktive. Universitetet i Bergen utvikler et skrivestøttesystem, et system for automatisk oversettelse basert på semantikk, korpusinnsamling og terminologidatabase. Norges Handelshøyskole arbeider med maskinoversettelse. NTNU arbeider med talebaserte brukergrensesnitt og et elektronisk leksikon med fonetisk informasjon. Universitetet i Oslo driver med leksikalske databaser, grammatiske taggere, og korpusinnsamling. Nordgård fremhevet at det er et problem at ny rekruttering til språkteknologiforskning svikter.

Kolbjørn Heggstad er vel den som lengst har drevet med språkteknologi i Norge. Han representerer nå firmaene IDE og Nordisk Språkteknologi (NST). Han snakket engasjert om alt NST har satt seg fore å gjøre, både når det gjelder dikteringssystemer, oversettelsessystemer, stavekontroll- og korrekturprogrammer. Dette firmaet får sin programvare fra firmaet L&H (de har inngått et samarbeid - joint venture), og utvikler norske deler til disse. Denne tilnærmingsmåten er noe kontroversiell, og ikke alle konferansedeltagerne applauderte like sterkt. På den ene siden er det vel og bra at det kommer programvare for norsk, på den annen side er det betenkelig at det som finnes, til syvende og sist bare blir tilgjengelig gjennom ett firma, som attpåtil ikke er norsk.

To representanter fra Språkrådet studerer Tekstlabens utstilling

To representanter fra Språkrådet studerer Tekstlabens utstilling

Jeg kan ikke gå inn på alle foredragene her, men kort nevne dem: Hans Tormod Antonsen, leder for Regjeringens IT-utvalg, fortalte at språkteknologi skal være et av satsingsområdene for Forskningsrådet. Bente Mægaard fra Center for Sprogteknologi i København snakket om den danske situasjonen, som kanskje er litt bedre pga EU-støttede prosjekter. Fred Karlsson fra Helsingfors Universitet og Lingsoft fortalte om språkteknologi i Finland, hvor ihvertfall den industrielle siden blomstrer med mange egenutviklede produkter. Torbjørn Svendsen fra NTNU snakket om taleteknologi på norsk, og særlig om behovet for store allment tilgjengelige basisressurser, som korpus. Koenraad de Smedt fra Universitetet i Bergen snakket om rekrutteringssituasjonen, og om hva slags bakgrunn som er nødvendig for de som skal arbeide med språkteknologi. Tron Espeli fra Forskningsrådet påpekte at det vil gis ressurser til gode språkteknologiske prosjekter. Jostein H. Hauge fra Universitetsbiblioteket i Bergen snakket om muligheter for EU-støtte. Helge Dyvik fra Universitetet i Bergen snakket generelt om hva en språkteknologisk satsing bør inneholde. Det gjorde også Arne Gilbakken fra NST.

Det var fire temaer som pekte seg ut spesielt på konferansen - to ukontroversielle og to kontroversielle.

Ukontroversielt tema 1: Det trengs flere språkteknologiske ressurser i Norge - og det offentlige er villige til å skyte inn penger.

Ukontroversielt tema 2: Rekrutteringssituasjonen må bedres. Fagområdet kan virke for hardt for myke humanister og for mykt for hardbarkede realister.

Kontroversielt tema 1: Hvor mange varianter av norsk? Mange var bekymret for nynorskens stilling - vil det bli utviklet programvare for nynorsk i like stor grad som for bokmål? Hva med dialektene? Telenor og Tekstlaboratoriet hadde begge forsøkt å være inkluderende, og laget produkter som både forstår bokmål, nynorsk og også unormerte varianter og dialekter. NST hadde, til tross for at de holder til på Voss, den oppfatningen at nynorsk nok var for lite kommersielt interessant til at man kunne satse på det i særlig grad.

Kontroversielt tema 2: Hvor og hvordan bør de språkteknologiske produktene utvikles? Hvor tilgjengelige bør de utviklede produktene være, og hvem bør finansiere alt sammen? Det var to hovedmotsetninger her. På den ene siden var det noen som mente at det beste måtte være å inngå et nært samarbeid med utenlandske firmaer (slik NST har gjort med L&H), ved at man får programvare fra utlandet og ganske enkelt utvikler de spesifikt norske delene til denne. Fordelen med denne tilnærmingen er at den antagelig raskt gir resultater, og at produktene raskt kan benyttes i eksisterende systemer og brukes kommersielt. Ulempen med en slik tilnærming er at det ikke utvikles språkteknologisk basis- og spisskompetanse i Norge, at eventuelle inntekter ikke i samme grad blir i Norge, og at produktene ikke blir allment tilgjengelige for andre miljøer og bedrifter for videre forskning og utvikling.

Siden det offentlige gjennom Forskningsrådet nå ser ut til å være villige til å gå inn med en del penger, er det viktig at det de gir penger til, blir allment tilgjengelig både som ferdig produkt og til bruk i videre forskning og utvikling. Det vil derfor være betenkelig å kanalisere store økonomiske ressurser inn i private foretagender.

Janne Bondi Johannessen


[Neste | Innhold | Tekstlab]


16. desember 1998, AN, <anders.noklestad@ilf.uio.no>