Morgenbladet

Les for meg

Venn deg til det med en gang: Lemmatisering, disambiguering og semantisk tagging er hverdagslige verktøy i forskningen.

Input/Output.

Aaaaaarrrrrrrrghhh!!!!!!!! All denne litteraturen! All denne informasjonen! Stadig mer! Stadig mer! Kan ikke bare datamaskinene lese for oss?
Du har nettopp lest en forsøksvis engasjerende innledning til en artikkel om datalingvistikk. Vi skal begynne med å ta utgangspunkt i doktoravhandlingen til Rune Sætre, GeneTUC: Naturlig språkforståelse i medisinsk tekst, som han nylig disputerte med ved Institutt for datateknikk og informasjonsvitenskap, NTNU.
Poenget er som følger: Innen medisinsk forskning samles nye artikler i en database som heter Medline. Den inneholder mer enn 13 millioner artikler fra 1966 og frem til i dag, og den vokser med omtrent to tusen nye artikler daglig. Det sier dermed seg selv at denne mengden artikler stadig når nye nivåer av uhåndterbarhet. GeneTUC er en tilnærming til et system som kan lese slik faglitteratur, og deretter svare på enkle spørsmål: "Hvilke gener aktiveres av hormonet gastrin?". Systemet er med andre ord primært tenkt å være til nytte for molekylærbiologer.
Dette gjøres ved å analysere spørsmålet grammatikalsk og deretter finne faktasetninger med tilsvarende grammatikk i artiklene. Den som gjør et vanlig søk etter termen "gastrin" i Medline, vil få tilslag på om lag 18 000 artikler. Sætre anslår at systemet en gang i tiden vil kunne bruke 20 minutter på å finne frem til informasjon man ellers trenger en hel dag på å finne selv.

Grammatikk. Rune Sætre er reist til Japan for å jobbe videre med prosjektet ved Universitetet i Tokyo.
– Når maskinen leser en artikkel, skal den ikke bare lagre innholdet, men også forstå det, sier Tore Amble, førsteamanuensis ved NTNU. Han har veiledet Sætre i arbeidet med avhandlingen.
– En av utfordringene er at språket er fullt av faguttrykk. For å forstå denne typen litteratur, trenger man biologisk kompetanse, og denne kompetansen må på ett eller annet vis nedfelles i systemet. Sætre har blant annet jobbet med å samle inn vanskelige tekniske termer. Tradisjonell tekstgjenfinning finner bare ord eller fraser. Et annet, dypere spørsmål er om de artiklene systemet finner er relevant for ditt arbeid.
Selv har Tore Amble jobbet i mer enn ti år med systemet TUC, som GeneTUC altså er en variant av. TUC er en forkortelse for The Understanding Computer. Dette systemet kan i dag svare på spørsmål formulert i naturlig språk om bussavganger i Trondheim.
– TUC er minst like avansert som GeneTUC, og gir riktig svar i 99 prosent av tilfellene, sier Amble.

Naturlig. Vi har brukt begrepet "naturlig språk". Vi bruker dette begrepet for å klargjøre at vi ikke snakker om et formelt språk, som for eksempel et programmeringsspråk. Sistnevnte er konstruert nettopp for at datamaskiner skal kunne forstå dem, og det er derfor ingen grunn til at det skal finnes en egen forskningsdisiplin som gjør programmeringsspråk begripelige for datamaskiner. Naturlige språk har på sin side utviklet seg gjennom menneskelig kommunikasjon over flere tusen år, og i den vitenskapelige disiplinen natural language processing (NLP) forsøker man å gjøre menneskenes språk begripelige for datamaskiner.
NLP er en underdisiplin av kunstig intelligens. En gang i tiden var man veldig optimistisk på vegne av kunstig intelligens-forskningen. I 1965 uttalte Herbert A. Simon, som senere skulle vinne Nobelprisen i økonomi: "Innen 1985 vil datamaskiner være i stand til å utføre et hvilket som helst arbeid et menneske kan gjøre." I 1970 lanserte Terry Winograd systemet SHRDLU, som kunne motta instrukser av typen "Plukk opp den røde boksen" og svare "Når du sier "den røde boksen", mener du da den som står oppå den blå?". Forskersamfunnet var optimistisk, og det var stor glede.

Virkelighet. Men SHRDLU opererte innenfor en liten sandkasse av en verden, og hadde et mikroskopisk vokabular. I møte med mer komplekse problemstillinger gikk utviklingen i stå. GeneTUC, som ennå ikke er ferdig utviklet, er et eksempel på at man må operere innenfor et avgrenset område for å kunne lage intelligente systemer.
– Det er ingen som forventer seriøst at man skal lage den typen kustig intelligens-systemer som man drømte om på 1960-tallet, sier Tore Amble.
Han forteller om et annet system, LexTUC, som også er under utvikling ved Institutt for datateknikk og informasjonsvitenskap. Her skal man kunne stille spørsmål til et leksikon.
– Hvis det står i leksikonet at "President Kennedy ble myrdet 22. november 1963 av en snikmorder", så vil vi ikke bare at systemet skal kunne svare på spørsmål av typen "Hvem myrdet presidenten?" eller "Hvem ble presidenten myrdet av?". Her forekommer de samme ordene i spørsmålet som i svaret. Vi vil også ha et system med generell kunnskap. Vi vil at systemet skal kunne resonnere, og svare på spørsmålet "Når døde John F. Kennedy?"

For eller for? NLP-forskningen står altså overfor en rekke utfordringer. Vi forlater NTNU og Trondheim, og vender nesen og oppmerksomheten mot Universitetet i Oslo. Her, ved Institutt for lingvistiske og nordiske studier, finner vi Tekstlaboratoriet.
Her har de ikke bare ett korpus, men flere, for eksempel Oslo-korpuset av taggede norske tekster, som inneholder 18,5 millioner ord hentet fra aviser, ukeblad, romaner og offentlige dokumenter – og The Sofie Treebank, som inneholder utdrag fra Jostein Gaarders roman Sofies verden.
– Et korpus er en mengde med tekster satt sammen etter utvalgte kriterier, ofte tagget grammatisk, sier Janne Bondi Johannessen. Hun er professor i lingvistikk ved UiO.
At en setning er tagget betyr, svært forenklet, at verb markeres som verb, substantiver som substantiver – og så videre. Svært forenklet.
– Hensikten med vårt korpus er ikke å hente informasjon om dagens samfunn, sier Johannessen.

Lemmatisering. Da er lemmatisering mer interessant.
– Det betyr at hvis du leter etter "muskelsykdommer", så kan du få tilslag på "muskelsykdommen" og "muskelsykdommene". Jo mer intelligent taggingen er, desto bedre: Vi må kunne skille mellom "for" og "fôr".
– Det er da en forskjell mellom for og fôr?
– De færreste gidder å skrive "fôr" med aksent.
– Så hvis man legger inn Ibsens samlede verker, og vil finne når han snakker om "for" og når han snakker om "fôr"?
– Nå tror jeg ikke du finner så mange forekomster av fôr hos Ibsen.
– Hamsun, da?
– Da må maskinen lese gjennom de samlede verkene, som tagger og lemmatiserer, og gjenkjenner den grammatiske kategorien: For er preposisjon, fôr er substantiv.
– Er det dette som kalles grammatisk disambiguering?
– Det er bedre hvis du skriver entydiggjøring. La oss velge høy og høy; det er bedre eksempler, og så er vi fortsatt innenfor fôr-domenet. Høy og høy kan jo som kjent være henholdsvis substantiv og adjektiv. En tagger må klare å entydiggjøre med hensyn til grammatisk kategori.
– Hvis vi går over til ord som tilhører samme grammatiske kategori? Bank og bank, for eksempel.
– Ja, så hvis Røkke eller en annen av Norges mange milliardærer sier til sin sønn: "Du skal få bank til bursdagen din", så kan det være litt vanskelig. Men vi vet at ordene "bank" og "penger" forekommer nær hverandre i mange tekster. Den informasjonen kan semantiske taggere benytte seg av. Da bruker man avanserte statistiske metoder, for å regne ut en form for matematisk avstand mellom ordene.
– Har dere jobbet mye med dette på Tekstlaboratoriet?
– Ikke så veldig. Vi har jobbet mer med et annet spesialfelt av semantisk tagging, nemlig navnegjenkjenning. Vi vet jo at det finnes flere typer navn: egennavn, personnavn, stedsnavn og så videre. Hvis jeg spør noen "Hvor ligger Morgenbladet?", så svarer de med et stedsnavn. Hvis jeg sier at "Morgenbladet er fusjonert med Aftenposten", så har vi å gjøre med et bedriftsnavn. Slike ting skrives det flere doktoravhandlinger om hos oss.

Publisert 04. august 2006