Les for meg
Venn deg til det med en gang: Lemmatisering,
disambiguering og semantisk tagging er hverdagslige verktøy i
forskningen.
Input/Output.
|
Aaaaaarrrrrrrrghhh!!!!!!!! All denne
litteraturen! All denne informasjonen! Stadig mer! Stadig mer! Kan ikke
bare datamaskinene lese for oss?
Du har nettopp lest en forsøksvis
engasjerende innledning til en artikkel om datalingvistikk. Vi skal
begynne med å ta utgangspunkt i doktoravhandlingen til Rune Sætre,
GeneTUC: Naturlig språkforståelse i medisinsk tekst, som han nylig
disputerte med ved Institutt for datateknikk og informasjonsvitenskap,
NTNU.
Poenget er som følger: Innen medisinsk forskning samles nye
artikler i en database som heter Medline. Den inneholder mer enn 13
millioner artikler fra 1966 og frem til i dag, og den vokser med omtrent
to tusen nye artikler daglig. Det sier dermed seg selv at denne mengden
artikler stadig når nye nivåer av uhåndterbarhet. GeneTUC er en tilnærming
til et system som kan lese slik faglitteratur, og deretter svare på enkle
spørsmål: "Hvilke gener aktiveres av hormonet gastrin?". Systemet er med
andre ord primært tenkt å være til nytte for molekylærbiologer.
Dette
gjøres ved å analysere spørsmålet grammatikalsk og deretter finne
faktasetninger med tilsvarende grammatikk i artiklene. Den som gjør et
vanlig søk etter termen "gastrin" i Medline, vil få tilslag på om lag 18
000 artikler. Sætre anslår at systemet en gang i tiden vil kunne bruke 20
minutter på å finne frem til informasjon man ellers trenger en hel dag på
å finne selv.
Grammatikk. Rune Sætre er reist til Japan for
å jobbe videre med prosjektet ved Universitetet i Tokyo.
– Når maskinen
leser en artikkel, skal den ikke bare lagre innholdet, men også forstå
det, sier Tore Amble, førsteamanuensis ved NTNU. Han har veiledet Sætre i
arbeidet med avhandlingen.
– En av utfordringene er at språket er fullt
av faguttrykk. For å forstå denne typen litteratur, trenger man biologisk
kompetanse, og denne kompetansen må på ett eller annet vis nedfelles i
systemet. Sætre har blant annet jobbet med å samle inn vanskelige tekniske
termer. Tradisjonell tekstgjenfinning finner bare ord eller fraser. Et
annet, dypere spørsmål er om de artiklene systemet finner er relevant for
ditt arbeid.
Selv har Tore Amble jobbet i mer enn ti år med systemet
TUC, som GeneTUC altså er en variant av. TUC er en forkortelse for The
Understanding Computer. Dette systemet kan i dag svare på spørsmål
formulert i naturlig språk om bussavganger i Trondheim.
– TUC er minst
like avansert som GeneTUC, og gir riktig svar i 99 prosent av tilfellene,
sier Amble.
Naturlig. Vi har brukt begrepet "naturlig
språk". Vi bruker dette begrepet for å klargjøre at vi ikke snakker om et
formelt språk, som for eksempel et programmeringsspråk. Sistnevnte er
konstruert nettopp for at datamaskiner skal kunne forstå dem, og det er
derfor ingen grunn til at det skal finnes en egen forskningsdisiplin som
gjør programmeringsspråk begripelige for datamaskiner. Naturlige språk har
på sin side utviklet seg gjennom menneskelig kommunikasjon over flere
tusen år, og i den vitenskapelige disiplinen natural language
processing (NLP) forsøker man å gjøre menneskenes språk begripelige
for datamaskiner.
NLP er en underdisiplin av kunstig intelligens. En
gang i tiden var man veldig optimistisk på vegne av kunstig
intelligens-forskningen. I 1965 uttalte Herbert A. Simon, som senere
skulle vinne Nobelprisen i økonomi: "Innen 1985 vil datamaskiner være i
stand til å utføre et hvilket som helst arbeid et menneske kan gjøre." I
1970 lanserte Terry Winograd systemet SHRDLU, som kunne motta instrukser
av typen "Plukk opp den røde boksen" og svare "Når du sier "den røde
boksen", mener du da den som står oppå den blå?". Forskersamfunnet var
optimistisk, og det var stor glede.
Virkelighet. Men SHRDLU
opererte innenfor en liten sandkasse av en verden, og hadde et
mikroskopisk vokabular. I møte med mer komplekse problemstillinger gikk
utviklingen i stå. GeneTUC, som ennå ikke er ferdig utviklet, er et
eksempel på at man må operere innenfor et avgrenset område for å
kunne lage intelligente systemer.
– Det er ingen som forventer
seriøst at man skal lage den typen kustig intelligens-systemer som man
drømte om på 1960-tallet, sier Tore Amble.
Han forteller om et annet
system, LexTUC, som også er under utvikling ved Institutt for datateknikk
og informasjonsvitenskap. Her skal man kunne stille spørsmål til et
leksikon.
– Hvis det står i leksikonet at "President Kennedy ble
myrdet 22. november 1963 av en snikmorder", så vil vi ikke bare at
systemet skal kunne svare på spørsmål av typen "Hvem myrdet presidenten?"
eller "Hvem ble presidenten myrdet av?". Her forekommer de samme ordene i
spørsmålet som i svaret. Vi vil også ha et system med generell kunnskap.
Vi vil at systemet skal kunne resonnere, og svare på spørsmålet "Når døde
John F. Kennedy?"
For eller for? NLP-forskningen står altså
overfor en rekke utfordringer. Vi forlater NTNU og Trondheim, og vender
nesen og oppmerksomheten mot Universitetet i Oslo. Her, ved Institutt for
lingvistiske og nordiske studier, finner vi Tekstlaboratoriet.
Her har
de ikke bare ett korpus, men flere, for eksempel Oslo-korpuset av
taggede norske tekster, som inneholder 18,5 millioner ord
hentet fra aviser, ukeblad, romaner og offentlige dokumenter – og The
Sofie Treebank, som inneholder utdrag fra Jostein Gaarders roman
Sofies verden.
– Et korpus er en mengde med tekster satt sammen
etter utvalgte kriterier, ofte tagget grammatisk, sier Janne Bondi
Johannessen. Hun er professor i lingvistikk ved UiO.
At en setning er
tagget betyr, svært forenklet, at verb markeres som verb, substantiver som
substantiver – og så videre. Svært forenklet.
– Hensikten med vårt
korpus er ikke å hente informasjon om dagens samfunn, sier Johannessen.
Lemmatisering. Da er lemmatisering mer
interessant.
– Det betyr at hvis du leter etter "muskelsykdommer", så
kan du få tilslag på "muskelsykdommen" og "muskelsykdommene". Jo mer
intelligent taggingen er, desto bedre: Vi må kunne skille mellom "for" og
"fôr".
– Det er da en forskjell mellom for og fôr?
– De
færreste gidder å skrive "fôr" med aksent.
– Så hvis man legger inn
Ibsens samlede verker, og vil finne når han snakker om "for" og når han
snakker om "fôr"?
– Nå tror jeg ikke du finner så mange
forekomster av fôr hos Ibsen.
– Hamsun, da?
– Da må maskinen
lese gjennom de samlede verkene, som tagger og lemmatiserer, og
gjenkjenner den grammatiske kategorien: For er preposisjon, fôr er
substantiv.
– Er det dette som kalles grammatisk
disambiguering?
– Det er bedre hvis du skriver entydiggjøring. La
oss velge høy og høy; det er bedre eksempler, og så er vi fortsatt
innenfor fôr-domenet. Høy og høy kan jo som kjent være henholdsvis
substantiv og adjektiv. En tagger må klare å entydiggjøre med hensyn til
grammatisk kategori.
– Hvis vi går over til ord som tilhører samme
grammatiske kategori? Bank og bank, for eksempel.
– Ja, så hvis
Røkke eller en annen av Norges mange milliardærer sier til sin sønn: "Du
skal få bank til bursdagen din", så kan det være litt vanskelig. Men vi
vet at ordene "bank" og "penger" forekommer nær hverandre i mange tekster.
Den informasjonen kan semantiske taggere benytte seg av. Da bruker man
avanserte statistiske metoder, for å regne ut en form for matematisk
avstand mellom ordene.
– Har dere jobbet mye med dette på
Tekstlaboratoriet?
– Ikke så veldig. Vi har jobbet mer med et
annet spesialfelt av semantisk tagging, nemlig navnegjenkjenning. Vi vet
jo at det finnes flere typer navn: egennavn, personnavn, stedsnavn og så
videre. Hvis jeg spør noen "Hvor ligger Morgenbladet?", så svarer de med
et stedsnavn. Hvis jeg sier at "Morgenbladet er fusjonert med
Aftenposten", så har vi å gjøre med et bedriftsnavn. Slike ting skrives
det flere doktoravhandlinger om hos oss.
Publisert 04. august 2006