FINN NæringseiendomFINN Stort og småttFINN BåtFINN BilFINN JobbFINN Eiendom
  Annonse

   NYHETER    KULTUR    MENINGER    ALEX    KART    INFO    SØK http://tux1.aftenposten.no/   
NYHETER
Innenriks
Utenriks
Økonomi
Sport
Vær
Netthinnen
  Spillanmeldelser
  Hattrik
  Poker
  Tritris
TIPS EN VENN

Fra:

Til:

 
 Forside / nyheter / netthinnen Scandinavian Online

Oppdatert 05.12.99 kl. 20:43

Programmet som gjør grammatikk-læreren overflødig:
Tavle-analyse ut - data-analyse inn


Lærerens gode, gamle setningsanalyse på tavlen blir satt i forlegenhet av dataprogrammet til professor Janne Bondi Johannessen (t.v.) og tekstlabingeniør Anders Nøklestad ved tekstlaboratoriet på Universitetet i Oslo.
FOTO: PER KRISTIAN BJØRKENG

For første gang kan en datamaskin analysere norsk. Maskinen plasserer subjekt, objekt og verbal like godt som noen lærer.

PER KRISTIAN BJØRKENG

Dataprogrammet som er resultatet av det såkalte Taggerprosjektet ved tekstlaboratoriet på Universitetet i Oslo, kan med 97 prosents presisjon analysere en setning. For eksempel kan programmet se at ordet "datamaskin" i setningen over er tredje ledd i setningens adverbial, og at selve ordet er et hankjønnssubstantiv, fellesnavn, ubestemt form entall.

Professor og prosjektleder Janne Bondi Johannessen mener dataprogrammet kan analysere minst like godt som noen lærer. Men hva er vitsen? Er det så fryktelig viktig å analysere setninger, egentlig?

Skal snakkes til
- Hittil har vi ikke hatt datamaskiner som skulle forstå vanlig språk. Derfor har ikke behovet for dataanalyse vært til stede. Men i årene fremover vil det bli stadig vanligere for oss mennesker å henvende oss til maskiner ved å snakke til dem. Mercedes har allerede kommet på markedet med den første bilen du kan snakke til, forteller Johannessen.

For at maskinene skal kunne forstå hva vi nordmenn sier, må de kunne forstå norsk. Det holder ikke å skjønne hvert enkelt ord og etterpå se i en ordbok hva de betyr.

- For å forstå en setning, må datamaskinene kunne se hvilken funksjon de ulike ordene i en setning har. Ellers må vi snakke engelsk til maskinene. Det tror jeg ikke nordmenn vil godta, sier Janne Bondi Johannessen.

I tillegg til talegjenkjenning, kan språktaggeren få stor betydning for Internett-søk. Alle som har søkt etter informasjon på Internett, vet at det største problemet ikke er å få tak i informasjon, men at du får altfor mye som du ikke har bedt om. Om du i dag vil ha informasjon om fødsler og søker på ordet "føde", får du opp en masse treff om mat, kokker og oppskrifter, i tillegg til en del om fødsler. Dagens norske søkemotorer er for dumme til å se forskjell på verbet å føde og substantivet føde. Hadde den nye språktaggeren vært bygget inn i søkemotoren, kunne maskinen automatisk sortert vekk det du ikke ønsket å finne. Dermed ville søket blitt mye lettere.

23 millioner ord
Syv årsverk er gått med ved Universitetet i Oslo til å utvikle analysatoren. Programmet arbeider etter flere grammatikkregler enn du finner i en vanlig lærebok i grammatikk. Prosjektet omfatter også en samling på 23 millioner ord som er ferdig analysert. Dette kan brukes som verktøy av språkforskere og andre som er interessert i å se hvordan norsk brukes. Er du interessert, kan du se nærmere på dem ved å registrere deg på www.tekstlab.uio.no/norsk/bokmaal.

Janne Bondi Johannessen mener det er svært viktig med videre arbeid på dette området.

- De fleste dataprogrammer har hittil vært oversatt til norsk fra engelsk. Det er en enkel sak. Men du kan ikke bare oversette norske språkverktøy fra utenlandsk, slik for eksempel Microsoft gjør. Norsk er et helt eget språk med egne regler. Om du bare oversetter metodene fra engelske programmer, blir det for mange feil, sier hun.

Et eksempel er sammensetningsanalysatoren som prosjektet har utviklet. Vanlige PC-brukere har merket at stavekontrollen får problemer straks flere ord er satt sammen, for eksempel som i "biloppstillingsplass". Årsaken er at engelsk ikke har denne typen ord. Den nye språktaggeren kan plukke de sammensatte ordene fra hverandre, se om de er riktig stavet og forstå hvilken del av setningen de utgjør. Stavekontrollprogrammer som er direkte oversatt fra engelsk har ingen slik mulighet.

Ståkarakter
Aftenposten har foretatt et par stikkprøver av språktaggerens evner, og den er stort sett forbløffende god. Men av og til gjør den grelle feil som et menneske aldri ville ha gjort.

- Det hender resultatet ser grusomt ut. Men årsaken er ofte at datamaskinen tar hensyn til at ord kan være flertydige, mens vi forstår av sammenhengen hva de betyr, sier Johannessen.

Språktaggerens store begrensning er at den ikke forstår betydningen av ordene. Den forstår ikke at ordet "bolle" både kan være et bakverk og en skål.

- Neste steg for å få datamaskinen til å forstå norsk, er å få den til å gjøre en analyse av ordenes betydning også, sier professoren.


Annonse  
Utgiver: Aftenposten A/S, Oslo, Norge. Telefon +47 22 86 30 00. Alt innhold er opphavsrettslig beskyttet. © Aftenposten.