Taggerprosjektet, som ble påbegynt i april 1996, nærmer seg nå slutten. Dette prosjektet har hatt som mål å lage en automatisk morfosyntaktisk tagger for norsk (bokmål og nynorsk) og har utgjort til sammen syv årsverk. Det har hovedsakelig vært finansiert av Norges forskningsråd (tre årsverk), Dokumentasjonsprosjektet (to årsverk), Tekstlaboratoriet og det finske firmaet Lingsoft. Prosjektet vil bli avsluttet ved utgangen av desember.
Leder for prosjektet er Janne Bondi Johannessen, mens Kristin Hagen og Anders Nøklestad er ansatt som vitenskapelige assistenter. Lars Jørgen Tvedt har utført en god del programmering. Andre som har arbeidet eller arbeider på prosjektet i større og mindre grad, er Helge Hauglin, Kristian Emil Kristoffersen, Arne Martinus Lindstad, Jan Tore Lønning, Christian-Emil Ore og Diana Santos.
Arne Martinus Lindstad, Kristin Hagen og Anders Nøklestad
"<murer>"
"mur" subst mask appell fl ub
"mure" subst fem appell fl ub
"mure" subst mask appell fl ub
"mure" verb pres
"murer" subst mask appell ent ub
Taggeren er en regelbasert tagger (i motsetning til en statistisk basert tagger), mer spesielt er den en såkalt føringsbasert (Constraint-Based) tagger. Denne typen har vært utviklet ved Universitetet i Helsinki, Finland, under ledelse av Fred Karlsson. En føringsbasert tagger er en tagger der det er laget lingvistisk baserte regler for hvert eneste disambigueringsvalg. Den bygger på dependensgrammatikk, hvilket i praksis vil si at taggeren ikke bygger opp fraser, men at alle valg gjøres på grunnlag av forholdet mellom enkeltord.
Multitaggeren tar for seg teksten ord for ord. (Faste uttrykk, koordinerte sammensetninger o a regnes nå som enkle ord.) Hvert ord slås opp i en fullformsordlista. Hvert ord gis alle muligheter som fullformsordlista gir, uten at konteksten for ordet undersøkes. I tillegg kommer gjenkjenning og tagging av egennavn, dvs ord med store bokstaver som ikke finnes i fullformslista. Dessuten skjer gjenkjenning og merking av sammensetninger som ikke står i fullformslista. Dette blir gjort av et eget sammensetningsprogram som kort fortalt finner sisteleddet, slår det opp i fullformslista og får tagger herfra.
Her følger et eksempel på multitagget tekst (setningen "Forsvarsindustrien er frustrert over en stadig mistenkeliggjørelse fra politisk hold og i mediene."):
"<*forsvarsindustrien>"
"forsvarsindustri" subst mask appell ent be
"<er>"
"være" verb pres <predik1> <predik2> <auxp>
"<frustrert>"
"frustrere" adj <perf-part> mask fem ub ent <trans1>
"frustrere" adj <perf-part> nøyt ub ent <trans1>
"frustrere" verb perf-part <trans1>
"<over>"
"over" prep
"<en>"
"en" adv
"en" det kvant mask ent
"en" pron pers ent hum
"ene" verb imp <trans1>
"<stadig>"
"stadig" adj pos mask fem ub ent
"stadig" adj pos nøyt ub ent
"<mistenkeliggjørelse>"
"mistenkeliggjørelse" subst mask appell ent ub
"<fra>"
"fra" prep
"<politisk>"
"politisk" adj pos mask fem ub ent
"politisk" adj pos nøyt ub ent
"<hold>"
"hold" subst nøyt appell ent ub
"hold" subst nøyt appell fl ub
"holde" verb imp <trans1> <trans11/på>
"<og>"
"og" CLB konj
"og" adv
"og" konj
"<i>"
"i" prep
"<mediene>"
"medium" subst nøyt appell fl be
"<$.>"
"$." CLB <PUNKT>
"<*forsvarsindustrien>"
"forsvarsindustri" subst mask appell ent be
"<er>"
"være" verb pres <predik1> <predik2> <auxp>
"<frustrert>"
"frustrere" verb perf-part <trans1>
"<over>"
"over" prep
"<en>"
"en" det kvant mask ent
"<stadig>"
"stadig" adj pos mask fem ub ent
"<mistenkeliggjørelse>"
"mistenkeliggjørelse" subst mask appell ent ub
"<fra>"
"fra" prep
"<politisk>"
"politisk" adj pos nøyt ub ent
"<hold>"
"hold" subst nøyt appell ent ub
"<og>"
"og" konj
"<i>"
"i" prep
"<mediene>"
"medium" subst nøyt appell fl be
"<$.>"
"$." CLB <PUNKT>
"<*forsvarsindustrien>" @SUBJ "<er>" @FV "<frustrert>" @IV "<over>" @ADV "<en>" @DET> "<stadig>" @ADJ> "<mistenkeliggjørelse>" @<P-UTFYLL "<fra>" @ADV "<politisk>" @ADJ> "<hold>" @<P-UTFYLL "<og>" @KON "<i>" @ADV "<mediene>" @<P-UTFYLL
Bokmålstaggeren har hittil oppnådd en leksikalsk funnrate på 99,2% og en presisjon på 94,8%. Nynorsktaggeren har for øyeblikket en funnrate på 98,8% og en presisjon på 92,7%.
Kristin Hagen, Janne Bondi Johannessen og Anders Nøklestad