Dataprogrammet som er
resultatet av det såkalte Taggerprosjektet ved tekstlaboratoriet på
Universitetet i Oslo, kan med 97 prosents presisjon analysere en setning.
For eksempel kan programmet se at ordet "datamaskin" i setningen over er
tredje ledd i setningens adverbial, og at selve ordet er et
hankjønnssubstantiv, fellesnavn, ubestemt form entall.
Professor og prosjektleder Janne Bondi Johannessen mener dataprogrammet
kan analysere minst like godt som noen lærer. Men hva er vitsen? Er det så
fryktelig viktig å analysere setninger, egentlig?
Skal snakkes til
- Hittil har vi ikke hatt datamaskiner som
skulle forstå vanlig språk. Derfor har ikke behovet for dataanalyse vært
til stede. Men i årene fremover vil det bli stadig vanligere for oss
mennesker å henvende oss til maskiner ved å snakke til dem. Mercedes har
allerede kommet på markedet med den første bilen du kan snakke til,
forteller Johannessen.
For at maskinene skal kunne forstå hva vi nordmenn sier, må de kunne
forstå norsk. Det holder ikke å skjønne hvert enkelt ord og etterpå se i
en ordbok hva de betyr.
- For å forstå en setning, må datamaskinene kunne se hvilken funksjon
de ulike ordene i en setning har. Ellers må vi snakke engelsk til
maskinene. Det tror jeg ikke nordmenn vil godta, sier Janne Bondi
Johannessen.
I tillegg til talegjenkjenning, kan språktaggeren få stor betydning for
Internett-søk. Alle som har søkt etter informasjon på Internett, vet at
det største problemet ikke er å få tak i informasjon, men at du får altfor
mye som du ikke har bedt om. Om du i dag vil ha informasjon om fødsler og
søker på ordet "føde", får du opp en masse treff om mat, kokker og
oppskrifter, i tillegg til en del om fødsler. Dagens norske søkemotorer er
for dumme til å se forskjell på verbet å føde og substantivet føde. Hadde
den nye språktaggeren vært bygget inn i søkemotoren, kunne maskinen
automatisk sortert vekk det du ikke ønsket å finne. Dermed ville søket
blitt mye lettere.
23 millioner ord
Syv årsverk er gått med ved Universitetet i
Oslo til å utvikle analysatoren. Programmet arbeider etter flere
grammatikkregler enn du finner i en vanlig lærebok i grammatikk.
Prosjektet omfatter også en samling på 23 millioner ord som er ferdig
analysert. Dette kan brukes som verktøy av språkforskere og andre som er
interessert i å se hvordan norsk brukes. Er du interessert, kan du se
nærmere på dem ved å registrere deg på www.tekstlab.uio.no/norsk/bokmaal.
Janne Bondi Johannessen mener det er svært viktig med videre arbeid på
dette området.
- De fleste dataprogrammer har hittil vært oversatt til norsk fra
engelsk. Det er en enkel sak. Men du kan ikke bare oversette norske
språkverktøy fra utenlandsk, slik for eksempel Microsoft gjør. Norsk er et
helt eget språk med egne regler. Om du bare oversetter metodene fra
engelske programmer, blir det for mange feil, sier hun.
Et eksempel er sammensetningsanalysatoren som prosjektet har utviklet.
Vanlige PC-brukere har merket at stavekontrollen får problemer straks
flere ord er satt sammen, for eksempel som i "biloppstillingsplass".
Årsaken er at engelsk ikke har denne typen ord. Den nye språktaggeren kan
plukke de sammensatte ordene fra hverandre, se om de er riktig stavet og
forstå hvilken del av setningen de utgjør. Stavekontrollprogrammer som er
direkte oversatt fra engelsk har ingen slik mulighet.
Ståkarakter
Aftenposten har foretatt et par stikkprøver av
språktaggerens evner, og den er stort sett forbløffende god. Men av og til
gjør den grelle feil som et menneske aldri ville ha gjort.
- Det hender resultatet ser grusomt ut. Men årsaken er ofte at
datamaskinen tar hensyn til at ord kan være flertydige, mens vi forstår av
sammenhengen hva de betyr, sier Johannessen.
Språktaggerens store begrensning er at den ikke forstår betydningen av
ordene. Den forstår ikke at ordet "bolle" både kan være et bakverk og en
skål.
- Neste steg for å få datamaskinen til å forstå norsk, er å få den til
å gjøre en analyse av ordenes betydning også, sier professoren.