Navnegjenkjenning - et nordisk nettverksprosjekt


 

 

Fra januar 2001 i to år fremover (minst) er Tekstlaboratoriet med i et spennende nordisk prosjekt for navnegjenkjenning ledet og initiert av Janne Bondi Johannessen ved Tekstlaboratoriet. Prosjektet er finansiert av NorFa med NOK 1 000 000, og har også en vit.ass. finansiert av fakultetet i år. Prosjektets offisielle navn er "En automatisk navnegjenkjenner for norsk, svensk og dansk", men nå for tiden er det populært med korte navn, gjerne akronymer, og vi kaller oss nå gjerne NN, som står for Nomen Nesciu, eventuelt Nordisk Navnegjenkjenningsnettverk. Målet er å utvikle en navnegjenkjenner for norsk (bokmål og nynorsk), svensk og dansk.

 

Åsne Haaland og Andra Björk Jonsdottir, som skal skrive doktoravhandling og hovedoppgave innenfor navnegjenkjenningsprosjektet. (Foto: Arthur Sand)

 

De som er med i prosjekt-nettverket, er Center for Sprogteknologi, København, Språkdata ved Göteborgs Universitet, HIT-senteret ved Universitetet i Bergen, Fast Research & Transfer i Oslo, samt INL (ved Botolv Helleland) og Tekstlaboratoriet ved UiO. Ved sistnevnte institusjon er alle de tre fast ansatte med, og i tillegg har vi altså en vit.ass, Åsne Haaland, og en hovedfagsstudent, Andra Björk Jonsdottir (fra Island). Vi har et håp om at Åsne skal gå videre som doktorgradsstudent når dette året er omme. Hun holder for tiden på å viderekvalifisere seg ved å ta statistikkutdanning på Mat.nat. samtidig som hun jobber på prosjektet.

 

Hva er egentlig automatisk navnegjenkjenning? Egentlig burde vi kanskje kalt det navnetypegjenkjenning (engelsk: Named Entity Recognition), men vi synes det er litt langt i det daglige. En navnegjenkjenner skal kunne ta en hvilken som helst ukjent tekst og bestemme for hvert egennavn hva slags navneentitet det dreier seg om: om det er et personnavn, et stedsnavn eller et organisasjonsnavn (og eventuelt andre navnekategorier, som produktnavn eller titler). Man skulle kanskje tro at en slik gjenkjenning ville være fort gjort om man bare hadde noen store navnelister, men i praksis er det ikke så lett.  I Norge er det for eksempel svært vanlig at stedsnavn har gitt opphav til gårdsnavn, og så til etternavn.  Bondi er for eksempel både et stedsnavn og et personnavn. Og overalt i verden er det vanlig at personnavn brukes som firmanavn: Lefdal er både et firmanavn og et personnavn. Dessuten vil mange tekster, ikke minst fra aviser,  ikke bare inneholde nasjonale navn, men navn fra hele verden. 

 

Nytteaspektet er opplagt fra en språkteknologisk synsvinkel, men også kulturelt og språkvitenskapelig sett:

 

Informasjonsgjenfinning: Uansett hva slags søkesystem som brukes, er det viktig at man får det man søker etter uten for mye "støy".  Det er to mulige bruksmåter for en navnegjenkjenner i et informasjonssøkesystem. Den mest opplagte er muligheten til å kunne kanalisere søkeresultatene slik at brukeren får det han eller hun vil ha, og ikke mye annet i tillegg. Er man for eksempel på jakt etter informasjon om Texas fordi man kanskje ønsker å dra på ferie dit, og så søker etter "Texas" på Internett, er det veldig irriterende om de fleste søkeresultatene gir artikler om firmaet Texas Instruments.

 

Den andre bruksmåten er det stikk motsatte av en kanalisering av søkeresultater - nemlig å sikre at søkeresultatene gis i en rekkefølge som gjør at man får så forskjellige typer treff som mulig. Vet man veldig lite om et navn, kan dette være ønskelig: Ved et søk får man raskt artikler om både steder, personer, firmaer og kanskje produkter som har dette navnet. 

 

Automatisk oversettelse: For større språk har man kommet langt når det gjelder automatisk oversettelse. For at resultatet skal bli godt, er det selvfølgelig viktig at navn oversettes riktig. En norsk tekst som skal oversettes til et annet språk inneholder kanskje navnene Sogndal Energiverk og Bjørn Sogndal Berg. En oversetter av kjøtt og blod vet straks at det siste navnet er et personnavn og at alle enkeltdelene bør forbli som de er, mens det første er et institusjonsnavn som inneholder deler som bør oversettes. Et automatisk oversettelsesprogram kan ikke vite noe av dette før det har en automatisk navnegjenkjenner til å hjelpe seg.

 

Språket som identitetsbærer: Det er velkjent at språket er vår mest markante identitetsbærer. Av den grunn er det enighet om at det norske språk bør bestå som et fullendt bruksspråk, også i det moderne informasjonssamfunnet. Man ønsker ikke at det skal bli nødvendig å bruke engelsk på stadig flere av livets områder - såkalt domenetap.

 

Komparativ forskning: Fra et rent språkvitenskapelig kunnskapssynspunkt er forskningen rundt en slik gjenkjenner viktig, i det man vil finne ut mye om hvordan navn rent syntaktisk brukes - det er jo forskjell på den språklige konteksten til et personnavn og et stedsnavn. Siden prosjektet omfatter både norsk og svensk, vil vi kunne avdekke interessante likheter og forskjeller mellom språkene. På dette punktet føyer denne søknaden seg inn i en nyere forskningstradisjon som søker å studere språk fra et sammenlignende, komparativt perspektiv. 

 

Ny kunnskap om navns syntaktiske kontekst: Navneforskning er jo et tradisjonsrikt forskningsfelt. Bare ved UiO er det fire faste vitenskapelige stillinger samt en postdoktorstilling i faget. Til nå har all forskningen der dreid seg om navnene selv - innsamling, etymologi og morfologisk oppbygging - og ikke  navnene sett i en større syntaktisk sammenheng. Det er altså ingen overdrivelse at navn generelt er stemoderlig behandlet i språkvitenskapen. 

 

Prosjektet begynte for alvor med et seminar på Fefor Høifjellshotell i Gudbrandsdalen i januar. Deltagere fra alle de involverte institusjonene var med og leverte presentasjoner av seg selv, sine ressurser og sine ønsker for fremtiden, og i tillegg hadde vi tre gjesteforelesere: Andrei Mikheev og Steven Finch fra University of Edinburgh og Diana Maynard fra University of Sheffield.

 

Fefor høifjellshotell (Foto: Veronika Haderlein)

 

Det var en flott prosjektstart. Deltagerne ble godt kjent, og gjesteforeleserne ga glitrende presentasjoner, som førte til mange gode ideer og diskusjoner videre. Gjestene var også med på planleggingen av det videre prosjektarbeidet, og kom med flere fine innspill.

 

Det var selvfølgelig satt av tid til skigåing (langrenn og slalåm), svømming, spaserturer osv. Flere av deltagerne hadde ski på bena for første gang, eventuelt  første gang på mange år, og det var ikke mangel på dramatikk. Maynard endte med å falle og brekke håndleddet, og måtte helt til Lillehammer for å få skikkelig behandling. Enkelte av leieskiene viste seg å være av dårlig kvalitet, noe som førte til at Johannessen og Mikheev måtte gjennomføre seks-syv kilometer på én ski fordi bindingene falt av den andre. Men alt i alt var høyfjellsluften en skikkelig energiinnsprøytning for oss alle, og alle var enige om at det var en fin tur! Prosjektet har en egen hjemmeside hvor man kan lese mer både om prosjektet og deltagerne: http://scrooge.spraakdata.gu.se/nn/. Videre vil prosjektet bli presentert på NoDaLiDa-konferansen i Uppsala i mai.  

Janne Bondi Johannessen

 

 

 

På skitur: Steven Finch (Edinburgh), Anders Nøklestad, Kristin Hagen og Andra Björk Jonsdottir og Janne Bondi Johannessen. (Foto: Veronika Haderlein)

 

 


[Neste | Inhold | Tekstlab | HF]


2. mai 2001, AN, <anders.noklestad@ilf.uio.no>