annonse:1

MORGENBLADET

Utgis av Morgenbladet as / Etablert 1819 av boktrykker Niels Wulfsberg
Doktoren svarer
En ny måte å lære datamaskinene språk gjør dem også litt likere oss mennesker.

Del denne artikkelen:
| Mer
Anders Nøklestad disputerte 19. juni med avhandlingen A Machine Learning Approach to Anaphora Resolution Including Named Entity Recognition, PP Attachment Disambiguation, and Animacy Detection ved Universitetet i Oslo.

– «Toget traff reinsdyret fordi det kjørte for fort.» Eller: «Toget traff reinsdyret fordi det sto i skinnegangen.» I motsetning til datamaskiner skjønner vi mennesker umiddelbart at «det» i den første setningen referer til toget, og i den andre til reinsdyret. Din doktoravhandling gjør det mulig for også maskinene å forstå denne distinksjonen. Hvordan?

– Ved å bruke maskinlæring, noe som gjør at datamaskiner kan lære ting selv, uten å bli fortalt hva de skal gjøre. Jeg viser maskinen noen eksempler på hva «det» kan referere til. Så har jeg noen automatiske prosedyrer som gjør at datamaskinen kan knytte sammen ordene etter hvert. Jeg gir forskjellig informasjon, som at toget er subjekt i setningen, mens reinsdyr er objekt. Hvilket kjønn ordene har. Så lærer den seg etter hvert hvilke typer ord «det», kan vise til.

– Hvor mange eksempler må du vise maskinen før den skjønner sammenhengen?

– Det er som med menneskene: Jo flere, jo bedre. Det er ingen absolutt grense, jeg har brukt rundt 1200 treningseksempler. Det varierer ut fra hva maskinen skal lære, og hvor god informasjon den får. Men det er ingen faste regler for hva som er nyttig, god informasjon for maskinen.

– 1200 eksempler om «det»?

– Eksemplene går på det å koble sammen pronomen med andre ord i setningene. Han, hun, det, den eller de. Det er det maskinen lærer.

– Hva betyr dette i praksis? At datamaskinene snart vil ta over?

– Nei, det gjør nok ikke det. Avhandlingen er et bidrag som gjør at datamaskinene kan få en bedre forståelse av tekst, og som vil gjøre det lettere å få svar på spørsmål vi lurer på.

– Betryggende!

– Dette kan for eksempel gjøre søkemotorer smartere, slik at maskiner kan svare direkte på spørsmål heller enn å referere til nettsider som har svaret. Ved å koble sammen ulik informasjon vil den kunne svare direkte på spørsmål som «Når ble Henrik Ibsen født?». Mitt arbeid vil også gjøre systemer for automatisk maskinoversettelse bedre.

– Fra spansk til norsk med noen tastetrykk?

– Ja, eller fra nynorsk til bokmål. Det er jo forskjellig bruk av pronomen i bokmål og nynorsk. På bokmål sier vi «den» til både hankjønn og hunkjønn. På nynorsk sier vi «han» til stolen og «ho» til boka. Dette vil gjøre det mulig å få maskinen til å forstå når «den» skal oversettes til «han» og når det skal oversettes til «hun».

– Hva med denne: «Heng ham ikke vent til jeg kommer».

– Hm, det datamaskinen trenger der er vel evnen til å analysere setningen syntaktisk, eventuelt hjulpet av et komma. Ellers krever jo mye av språkforståelsen kunnskap om verden. Slik verdenskunnskap, med alle nyansene som finnes, er veldig vanskelig for datamaskiner å tilegne seg. Mitt arbeid er kanskje et lite skritt på veien, men det er en lang vei å gå. Vi lærer maskinene en liten språklig forståelse, men å inkludere forståelse av verden ligger langt unna.


Publisert 07. august 2009

annonser: