Oslo-korpuset av taggede norske tekster

Bokmålsdelen av Oslo-korpuset inneholder omtrent 15,5 millioner ord og nynorskdelen omtrent 3,5 ord, som er kodet i forhold til standarden til IMS Corpus Workbench, Institut für Maschinelle Sprachverarbeitung, ved Universitetet i Stuttgart. Grensesnittet er utviklet ved Tekstlaboratoriet.

Tekstene i korpuset

Korpuset er satt sammen av de tekstene som Tekstlaboratoriet har hatt tilgjengelige pr januar 1999. Det omfatter tre genrer: skjønnlitteratur, avis/ukeblad og sakprosa. Skjønnlitteraturen er i sin helhet hentet fra ECI (European Corpus Initiative) og Norsk Tekstarkiv, Bergen (nå: HIT-senteret). Avis- og ukebladtekstene er samlet inn av Tekstlaboratoriet med velvillig tillatelse av de ulike redaksjonene. Sakprosatekstene består stort sett av NOU-rapporter, samt to bøker fra Norsk Tekstarkiv. Detaljert oversikt over de ulike tekstene, inkludert kilde og størrelse, finnes lenger bak.

Korpuset er ikke ment å være representativt i noen forstand, selv om det inneholder tekster fra til dels ulike genrer. Hovedformålet med det er å tilby en stor tekstmengde som forskerne kan benytte til søking. Men siden søkegrensesnittet gjør det mulig å søke etter bestemte kilder, kan korpuset i praksis virke som et mer skreddersydd korpus - man kan velge seg ut alle avistekstene eller alle skjønnlitteraturtekstene eller alle sakprosatekstene, eller enkelttekster, eller en hvilken som helst kombinasjon av dem.

Korpusprosjektet, som inkluderer innsamling av tekster, grammatisk tagging, kildekoding, IMS-koding, og utvikling av web-grensesnitt, har vært ledet av Janne Bondi Johannessen. Diana Santos utviklet det opprinnelige web-grensesnittet for regulære uttrykk (for The Oslo Corpus of Bosnian Texts), mens Sigurd Schiøth har videreutviklet web-grensesnittet til også å omfatte muligheten for å søke vha klikking i bokser. Tore Bjertnes Pedersen og Anders Nøklestad har utarbeidet kildeangivelser etter mønster av tilsvarende arbeid gjort ved Seksjon for leksikografi og målføregransking. Den grammatiske taggingen har hovedsakelig vært gjort av Kristin Hagen (morfologisk del) og Anders Nøklestad (syntaktisk del). Deler av taggeren (nærmere bestemt multitaggingsdelen) har vært utviklet i samarbeid med Dokumentasjonsprosjektet (ledet av Christian-Emil Ore), og programmeringen har vært utført av Lars-Jørgen Tvedt, og delvis av Helge Hauglin. Andre som har vært involvert, er Kristian Emil Kristoffersen, Arne Martinus Lindstad og Jan Tore Lønning.

Grammatiske tagger

Bak den grammatiske taggingen ligger det svært mye arbeid. Til sammen seks årsverk, hovedsakelig finansiert av Norges forskningsråd, Dokumentasjonsprosjektet og Tekstlaboratoriet, har gått med til å utvikle selve taggeren. Programvare fra Lingsoft, Finland, har vært brukt i arbeidet. Denne forutsetter en dependenstypegrammatikk (Constraint Grammar). De grammatiske taggene er søkbare i begge web-grensesnitt - både vha regulære uttrykk og vha klikk-og-skriv-grensesnittet. En oversikt over taggene finnes lenger bak.

Morfologiske tagger

De morfologiske taggene er strengt tatt morfosyntaktiske tagger. De angir ordklasse (som verb eller substantiv), samt alle de vanligste kategorier med trekk, slik som genus (maskulin, feminin, nøytrum), tall (entall, flertall), bestemthet (ubestemt, bestemt), tempus (preteritum, presens), for å nevne noen få. Det er i størst mulig grad gjort vinn på å følge Norsk Referansegrammatikk (Faarlund, J.T., S. Lie og K.I. Vannebo 1997) når det gjelder valg av ordklasse og trekk. Det har ført til f.eks. at alle tidligere stedsadverb nå er preposisjoner.

Syntaktiske tagger

De syntaktiske taggene angir vanlige syntaktiske funksjoner som subjekt og objekt. Alle syntaktiske tagger angis med en krøllalfa (@) foran. Siden grammatikken er av dependenstypen, hvor ethvert ord forholder seg til om det er kjerne eller utfylling, kommer det i tillegg mange mer uortodokse funksjoner, f.eks. : @<SBU (SUBJUNKSJON som modifiserer noe til venstre), @DET> (DETERMINATIV som modifiserer noe til høyre), @KON (KONJUNKSJON). Om det er en pil på den syntaktiske taggen, betyr det at dette ordet er en utfylling som modifiserer en kjerne som står i den retningen pila viser.

Kildeangivelser

Kildeangivelsene er utviklet etter mønster av arbeid gjort ved Seksjon for leksikografi, UiO. Et eksempel er:

Allbjart, Gunnar 'Flukten til livet' flukt.syn SK/AlGu/01

Kildeangivelsen er koden på slutten av linjen. SK står for skjønnlitteratur (AV=avis/ukeblad og SA=sakprosa finnes også), de fire bokstavene i midtfeltet angir forfatter (eventuelt avis med årstall), og det siste tallet angir ganske enkelt hvilken fil det er, hvis vi har flere verker av samme forfatter eller flere filer fra samme avis. Det understrekes at en fil ikke tilsvarer noen naturlig mengde når det gjelder avisene, slik at f.eks. AV/Af94/01 består av 26 nummere av Aftenposten 1994. En fullstendig oversikt finnes lenger bak.

Typer av mulige søk

Vi tilbyr to forskjellige søkemåter, en enkel og en mer komplisert, som begge tillater svært komplekse søk. Den enkle søkemåten har vi kalt Klikk og skriv, fordi man kan spesifisere all informasjon om søket vha klikking i bokser, eventuelt kan man søke etter bestemte ord eller deler av ord - da må man selvfølgelig skrive dem. Den kompliserte måten er søking vha regulære uttrykk. Her må all informasjon om søket gis vha et regulært uttrykksspråk. Det mest kompliserte ved denne sistnevnte måten er kanskje at man må vite navnet på de ulike taggene og teksttypene på forhånd for å kunne nevne dem i søkeuttrykket.

Man kan be om å søke på ord, deler av ord, grammatiske (morfologiske og syntaktiske) tagger og begrensninger innenfor teksttype, og kombinere slike søk på et utall av måter. Man kan be om en KWIC-konkordanse (KWIC, KeyWord In Context) eller be om distribusjon av resultatene, former eller av kilde eller grammatisk kategori. Man kan samtidig få både konkordanse og distribusjon. Man kan også be om at konkordansen skal vise taggene på søkeordet og eventuelt på ordene i kontektsten.

Søking med regulære uttrykk

Denne typen søking er den mest fleksible, her er det knapt noen grenser for hvilke kombinasjoner man kan søke etter. Ved selv å formulere regulære uttrykk kan man oppnå nøyaktig det man ønsker. Samtidig må det nevnes at det kan ta forholdsvis lang tid å få resultatene fra denne typen søk.

Eksempler:

"jente" Alle forekomster av ordet jente.
"interess.*" Alle ord som begynner med bokstavene interess, f.eks. interesserer, interessant.
".*else" Alle ord som ender på bokstavene else, f.eks. forbauselse, forskrekkelse.
".*r" "be.*" Alle sekvenser av to ord som står rett ved siden av hverandre, hvor det første ender på -r og det andre begynner på -be, f.eks. eller begynne, har bestemt.
"jeg" []{0,7} "og" Ordet jeg fulgt av ordet og med opptil sju ord mellom, f.eks. ...jeg var ute i samme ærend og ble glad...

Videre kan man benytte korpusets grammatiske tagger og kildeangivelse i søkingen:

[src="SK.*" & word="be.*"] Begrenset til skjønnlitteratur: Alle forekomster av ord som begynner på be-, f.eks. bena, bestemt.
[src="SK.*" & tag=".*verb.*" & word="be.*"] Begrenset til skjønnlitteratur: Alle forekomster av ord som begynner på be- og er verb, f.eks. bestemt, begynner, men ikke bena, begynnelse.
[(src="SK.*" | src="SA.*") & tag=".*verb.*" & tag=".*pres.*" & word="be.*"] Begrenset til skjønnlitteratur og sakprosa: Alle forekomster av ord som begynner på be- og er verb og presens, f.eks. bestemmer, begynner, men ikke bena, begynnelse, bestemt.
[src="AV/Af.*" & tag=".*verb.*" & tag=".*pres.*" & word="be.*"] Begrenset til Aftenposten: Alle forekomster av ord som begynner på be- og er verb og presens, f.eks. bestemmer, begynner, men ikke bena, begynnelse, bestemt.
[src="SK.*" & tag=".*verb.*"] Begrenset til skjønnlitteratur: Alle forekomster av verb, f.eks. pustet, bestemmer.
[src="SK.*" & tag=".*verb.*"] [tag=".*prep.*"] Begrenset til skjønnlitteratur: Alle forekomster av verb, fulgt av preposisjon, f.eks. pustet ut, bestemmer for.

Søking med klikk og skriv

Klikk og skriv-muligheten er betydelig enklere å bruke enn systemet med regulære uttrykk. Man behøver ikke kjenne noen av kodene til verken grammatiske tagger eller tekstkilder, og man behøver ikke selv konstruere de regulære uttrykkene. Isteden klikker man seg gjennom et system med bokser og menyer. Denne typen søk gir også raske resultater.

Man har muligheten til å søke på ett eller to ord - eller deler av ord (begynnelse eller slutt) - rett etter hverandre, eller med et selvvalgt antall ord mellom. Man kan bestemme at et eller begge av ordene er spesifisert mht grammatisk kategori (mer eller mindre spesifisert) og/eller teksttype. Videre kan man velge å unnlate å spesifisere selve ordstrengen, og heller bare velge grammatisk kategori.

Eksempler på hovedtyper av søk

Enkeltord. Finn alle forekomster av jente: Skriv jente i feltet Første ord. Klikk på Søk i korpuset.

Prefikser. Finn alle ord som begynner med be-: Skriv be i feltet Første ord. Klikk i boksen Begynnelse av ord. Klikk på Søk i korpuset. Eksempel: bena, bestemt.

Suffikser. Finn alle ord som slutter med -else: Skriv else i feltet Første ord. Klikk i boksen Endelse av ord. Klikk på Søk i korpuset. Eksempel: forbauselse, forskrekkelse.

Sekvenser av ord. Finn alle sekvenser av ord som står rett ved siden av hverandre, hvor det første ender på -r og det andre begynner på be-: Skriv r i feltet Første ord, og klikk i boksen Endelse av ord, skriv 0 i feltet Antall ord imellom, skriv be i feltet Andre ord, og klikk i boksen Begynnelse av ord. Klikk på Søk i korpuset. Eksempel: eller begynne, har bestemt.

Brutt sekvens - med andre ord mellom. Finn alle forekomster av ordet jeg fulgt av ordet og med opptil sju ord i mellom: Skriv jeg i Første ord, 7 i Antall ord imellom, og i Andre ord. Klikk på Søk i korpuset. Eksempel: ...jeg var ute i samme ærend og ble glad...

Begrens søket i forhold til teksttype. Finn alle forekomster av ord som begynner på be- i skjønnlitteratur: Skriv be i Første ord, klikk i Begynnelse av ord, klikk under Tekstutvalg på Aviser, Sakprosa, Skjønnlitteratur, og velg Alle i rullegardinmenyen for skjønnlitteratur. Klikk på Søk i korpuset. Eksempel: bena, bestemt.

Begrens søket i forhold til grammatisk kategori. Finn alle forekomster av verb i presens: Ikke skriv noe i feltene for Første ord og Andre ord. Klikk på Verb under Grammatiske kategorier, klikk på boksen Verb og boksen Presens (under Første ord). Klikk på Søk i korpuset. Eksempel: puster, bestemmer, men ikke pustet, bestemt.

Eksempler på kombinasjoner av søkekriteriene over

Finn alle forekomster av ord som begynner på be- og er verb, i skjønnlitteratur: Skriv be i Første ord, klikk i Begynnelse av ord, klikk på Verb under Grammatiske kategorier, klikk på boksen Verb (under Første ord), gå opp til søkeskjemaet igjen, klikk under Tekstutvalg på Aviser, Sakprosa, Skjønnlitteratur, og velg Alle i rullegardinmenyen for skjønnlitteratur. Klikk på Søk i korpuset. Eksempel: bestemt, begynner, men ikke bena, begynnelse.

Finn alle forekomster av ord som begynner på be- og er verb og presens, i skjønnlitteratur og sakprosa: Skriv be i Første ord, klikk i Begynnelse av ord, klikk på Verb under Grammatiske kategorier, klikk på boksen Verb og boksen Presens (under Første ord), gå opp til søkeskjemaet igjen, klikk under Tekstutvalg på Aviser, Sakprosa, Skjønnlitteratur, og velg Alle i rullegardinmenyen for skjønnlitteratur, samt Alle i menyen for sakprosa. Klikk på Søk i korpuset. Eksempel: bestemmer, begynner, men ikke bena, begynnelse, bestemt.

Finn alle forekomster av ord som begynner på be- og er verb og presens, i Aftenposten: Skriv be i Første ord, klikk i Begynnelse av ord, klikk på Verb under Grammatiske kategorier, klikk på boksen Verb og boksen Presens (under Første ord), gå opp til søkeskjemaet igjen, klikk under Tekstutvalg på Aviser, Sakprosa, Skjønnlitteratur, og velg Aftenposten i rullegardinmenyen for aviser. Klikk på Søk i korpuset. Eksempel: bestemmer, begynner, men ikke bena, begynnelse, bestemt.

Finn alle forekomster av verb, i Aftenposten: Ikke skriv noe i feltene for Første ord og Andre ord. Klikk på boksen Verb under Grammatiske kategorier, klikk på boksen Verb (under Første ord), gå opp til begynnelsen av søkeskjemaet igjen, klikk under Tekstutvalg på Aviser, Sakprosa, Skjønnlitteratur, og velg Aftenposten i rullegardinmenyen for aviser. Klikk på Søk i korpuset. Eksempel: pustet, bestemmer.

Finn alle forekomster av verb fulgt av preposisjon, i skjønnlitteratur: Ikke skriv noe i feltene for Første ord og Andre ord. Klikk på boksen Verb under Grammatiske kategorier, klikk på boksen Verb (under Første ord), klikk så på Preposisjon, og klikk på boksen Preposisjon (under Andre ord), gå opp til begynnelsen av søkeskjemaet igjen, klikk under Tekstutvalg på Aviser, Sakprosa, Skjønnlitteratur, og velg Alle i rullegardinmenyen for skjønnlitteratur. Klikk på Søk i korpuset. Eksempel: pustet ut, bestemmer for.

Hvordan få tillatelse til å bruke korpuset

Oslo-korpuset av taggede tekster (bokmål) er tilgjengelig for alle som ønsker å bruke det til forskning og undervisning, dvs. all ikke-kommersiell bruk. For å få tillatelse, inkludert brukernavn og passord, sender man en e-post til Tekstlaboratoriet (tekstlab@ilf.uio.no) med følgende informasjon:

NAVN
ADRESSE
INSTITUSJONSTILKNYTNING
foreslått BRUKERNAVN for korpuset,
foreslått PASSORD for å bruke korpuset (IKKE det passordet du ellers bruker!)
UTTALELSE 1 ("Jeg lover å bruke Oslo-korpuset av taggede tekster (bokmål) utelukkende for akademiske, ikke-kommersielle formål")
UTTALELSE 2 ("Jeg lover å la passordet mitt være strengt personlig, og vil ikke distribuere det videre til noen person eller institusjon. ")
UTTALELSE 3 ("Jeg vil alltid referere skikkelig til korpuset med navn og internettadresse i alt jeg skriver hvor korpuset er brukt, både når det gjelder publiserte og upubliserte tekster.

Du vil få svar i løpet av kort tid.

Teknisk informasjon

IMS Corpus Workbench

Dette er et grensesnitt mot CQP, Corpus Query Processor, som hører til IMS Corpus Workbench, utviklet av Oliver Christ og Bruno Maximilian Schulze ved Institut für Maschinelle Sprachverarbeitung, Universitetet i Stuttgart. Prøv gjerne ut deres liste over hyppige spørsmål.

Vi er svært glade for å ha fått lov til å bruke CQP-søkeverktøyet til forskningsformål.

De som kjenner CQP-grensesnittet, kan bruke det så godt som i sin helhet her. Noen restriksjoner vil bli beskrevet nedenfor.

Korpus-struktur og koding

Det er brukt tegnsett ISO-8859-1 i korpuset. Det er også laget en ren ASCII-versjon.

Korpuset er satt sammen av det elektroniske materialet for norsk som Tekstlaboratoriet hadde tilgjengelig pr. januar 1999. Mesteparten av dette materialet har vi overtatt i elektronisk form, enten direkte fra avis, forfatter eller forlag - eller via andre tekstinnsamlere som Humanistisk datasenter i Bergen (nå: HIT-senteret) og ECI (European Corpus Initiative). Vi har også lastet ned fra internett statlige informasjonsskriv (NOU-rapporter). Vi er svært takknemlige over å ha fått tillatelse fra aviser, forlag og forfattere til å benytte tekstene deres i dette første Oslo-korpuset. Vi har ikke gjort noen endringer i tekstene, bortsett fra at enkelte tall-tabeller som måtte finnes i enkelte tekster, er fjernet. Vi har beholdt overskrifter, billedtekster og annet som i utgangspunktet kans kje kunne vært et problem for taggeren. Isteden ble taggeren utviklet med tanke på også å takle en del slike teksttyper - i begrenset grad riktig nok.

Korpuset er tagget med UiOs multitagger (utviklet av Tekstlaboratoriet og Dokumentasjonsprosjektet i samarbeid), og deretter med vår disambiguerende tagger, utviklet ved Tekstlaboratoriet (med programvare fra Lingsoft, Finland). Korpuset er blitt gjort om til CQP-format automatisk, fra rene tekstfiler med meta-informasjon i headeren, og fra en innholdsfortegnelse med riktig tekstidentifikator.

Korpuset er ikke korrekturlest.

Til slutt gjør vi oppmerksom på noen punkter hvor vårt korpus avviker fra Corpus Workbench:

Korpuset er ikke delt opp på en måte som gjør det mulig å søke med formelle enheter som avsnitt og setninger.
Korpuset er annotert med kilde for hvert ord. Vi har ordnet det slik at kilden vises for hver linje i konkordansen.
Store og små bokstaver er kodet forskjellig.
Punktueringstegn er kodet som egne tegn, slik at man kan søke på f.eks. komma.

Informasjon om søkegrensesnittet

Det nåværende søkegrensesnittet gjør det mulig

å søke med klikking og skriving
å søke på CQP-måten med regulære uttrykk
å velge mellom Latin 1 eller lavere ASCII for visning av søkeresultatet
å velge hvor mye kontekst som skal vises i konkordansen
å velge et tilfeldig utplukket antall søketreff
å velge type søkeresultat (konkordanse, distribusjon av former, av kilder eller annet, eller en kombinasjon av disse)
å velge konkordanse uten tagger, med tagger bare på søkeordet eller med tagger på både søkeord og kontekst.

Søkeresultatet vises sammen med en angivelse av hva slags søk som ble foretatt av brukeren, samt dato og antall søketreff.

I noen tilfeller blir det gitt advarsler eller hjelpemeldinger. For eksempel:

Ikke spør om distribujon av former når søkeuttrykket bare tilsvarer én form.
Ikke bruk * isteden for .* (a* betyr et antall a'er, ikke a fulgt av noe annet: da burde man skrevet a.*)
Ikke bruk mellomrom inni et søkeuttrykk. Ønsker man to ord, må det brukes anførselstegn.

Viktige begrensninger

For å hindre brukerne i å laste ned hele tekster til sin maskin har vi lagt inn følgende begrensninger:

Man kan ikke søke med en kontekst som er større enn 500 tegn. Ber man om mer, blir det likevel kuttet ned til 500 tegn.
Man kan ikke søke på sekvenser som er lengre enn 200 ord (fra begynnelsen av søkeuttrykket til slutten). Prøver man med lengre uttrykk, blir de kuttet ned til 200.

Taggerens prestasjonsnivå

Vi har undersøkt den disambiguerende taggerens prestasjonsnivå på treningskorpuset, et manuelt tagget korpus som vi testet taggeren på mens vi arbeidet med den. Resultatene viste at taggeren hadde en leksikalsk funnrate på 99,2%, dvs. at den beholdt 99,2% av de riktige taggene. Presisjonsnivået, som angir hvor mange gale tagger som er fjernet, var på 96,8%.

Selv om disse tallene er høye, vil man likevel ofte finne at når man søker etter ord med en bestemt ordklasse, finner systemet en del ord som ikke skulle ha denne ordklassen i den aktuelle konteksten. Hvis man f.eks. søker etter ordet springer som substantiv, vil systemet bl.a. finne det følgende uthevede ordet:

Da springer hun, springer til hun kjenner smaken av blod og gråt som salt i strupen.

I noen tilfeller betyr dette at taggeren har valgt feil ordklasse på ordet, men vanligvis betyr det at taggeren ikke har tatt sjansen på å fjerne den ukorrekte taggen, slik at ordet fortsatt er flertydig. Springer i setningen ovenfor er for eksempel fremdeles listet som både substantiv og verb i korpuset; dette ser man hvis man velger å få resultatet vist med tagger på søkeordet:

Da springer hun, springer
"spring" subst mask appell fl ub @OBJ @I-OBJ
"springe" verb pres <intrans1> <intrans2> @FV
"springer" subst mask appell ent ub @OBJ @I-OBJ
til hun kjenner smaken av blod og gråt som salt i strupen.

Ofte er det også slik at ordet er genuint flertydig syntaktisk sett, selv om vår kunnskap om ordenes betydning vanligvis gjør at vi som lesere bare oppfatter én av tolkningene. Se på følgende eksempel:

Må også du være med på den enkle leken som alle leker
"lek" subst mask appell fl ub @SUBJ @S-PRED @<P-UTFYLL
"leke" subst fem appell fl ub @SUBJ @S-PRED @<P-UTFYLL
"leke" subst mask appell fl ub @SUBJ @S-PRED @<P-UTFYLL
"leke" verb pres <intrans1> <trans1> @FV
når livet blir for vanskelig

Siden taggeren ikke har tilgang til semantisk/pragmatisk informasjon, har den ikke mulighet til å utelukke substantivtolkningene av leker her. Dette ser vi hvis vi sammenlikner denne setningen med en setning som Må du også være med på den enkle leken som alle barn når livet blir for vanskelig, der vi finner substantivet barn i nøyaktig samme kontekst som leker i setningen over.

Selv om vi har brukt den syntaktiko-semantiske informasjonen om verbenes argumentstruktur som vi har fått fra NorKompLeks-prosjektet ved NTNU, kan det oppstå syntaktisk flertydighet hvis denne informasjonen er mangelfull eller taggeren ikke klarer å gjøre god nok bruk av den. Hvis man f.eks. søker i korpuset etter døde som verb, vil man bl.a. få følgende resultat:

Men i dag skal vi begrave de døde
"dø" verb pret <intrans2> <trans5> @FV
"død" adj pos mask fem nøyt be ent @SUBJ @OBJ @S-PRED
"død" adj pos ub be fl @SUBJ @OBJ @S-PRED
"døde" subst appell ubøy @SUBJ @OBJ @S-PRED

Her kan det være vanskelig å se hvordan døde kan bli stående som mulig verb. Det som har skjedd, er at taggeren ikke har tatt sjansen på å utelukke at begrave kan være et verb som tar at-setning som objekt, og at vi har et underforstått at mellom begrave og de. Hvis dette var tilfelle, ville setningen kunne ha samme struktur som Men i dag skal vi si (at) de døde, der døde jo faktisk er et verb.

Hvis man undersøker de feilene taggeren gjør og bestreber seg på å finne andre analyser enn de mest iøynefallende, vil man se at genuin syntaktisk flertydighet er langt mer utbredt enn man skulle tro. Det virker derfor vanskelig å få økt taggerens presisjon (evne til å fjerne uriktige tagger) ytterligere uten å inkludere semantisk (ev. også pragmatisk) informasjon om ordene i leksikonet.

Publikasjoner

Publikasjoner hvor korpuset er brukt

Vi ser gjerne at forskere som har brukt korpuset i foredrag eller skriftlige arbeider, forteller oss om det. Vi vil gjerne lage en liste over slike arbeider, til nytte og glede for oss alle.

Om tagging

Vitenskapelige tidsskrifter og antologier:

Janne Bondi Johannessen. 1998. Tagging and the case of pronouns. Computers and the Humanities. ISSN 0010-4817
Janne Bondi Johannessen. 1998. Elektroniske hjelpemidler - leksikografisk fornying. Norskrift.ISSN 0800.7764
Kristin Hagen og Janne Bondi Johannessen. 1998. Disambiguering uten syntaks. MONS 7. Utvalde artiklar frå det 7. Møtet om Norsk Språk i Trondheim 1997. ISBN 82-7099-307-7
Janne Bondi Johannessen. 1998. Negasjonen ikke: Kategori og syntaktisk posisjon. MONS 7. Utvalde artiklar frå det 7. Møtet om Norsk Språk i Trondheim 1997. ISBN 82-7099-307-7
Anders Nøklestad. 1998.Statistisk disambiguerende tagging av norsk. MONS 7. Utvalde artiklar frå det 7. Møtet om Norsk Språk i Trondheim 1997. ISBN 82- 7099-307-7
Janne Bondi Johannessen og Helge Hauglin.1998. An Automatic Analysis of Norwegian Compounds. Papers from the 16th Scandinavian Conference of Linguistics, Turku/Åbo, Finland. ISBN 951-29-1327-5.
Kristin Hagen, Janne Bondi Johannessen og Anders Nøklestad. 1998. A Constraint- Based Tagger for Norwegian. Foredrag presentert på Scandinavian Conference of Linguistics, Odense, Danmark. Til trykking i rapport.

Upublisert:

Kristin Hagen, Janne Bondi Johannessen og Kristian Emil Kristoffersen. 1997. Problemer ved bruk av andres lister til taggerformål. Foredrag presentert på Møter om norsk språk 7, Universitetet i Trondheim.

Versjon

Dette er versjon 1.1 av korpuset, tagget med versjon 1.1 av multitaggeren, og 1.1 av den disambiguerende taggeren.

[Neste | Innhold | Tekstlab]

19. april 2001, AN, <anders.noklestad@ilf.uio.no>