Oslo-korpuset av taggede norske tekster


Bokmålsdelen av Oslo-korpuset inneholder omtrent 15,5 millioner ord og nynorskdelen omtrent 3,5 ord, som er kodet i forhold til standarden til IMS Corpus Workbench, Institut für Maschinelle Sprachverarbeitung, ved Universitetet i Stuttgart. Grensesnittet er utviklet ved Tekstlaboratoriet.

Konkordanse med avisbakgrunn Konkordanse med avisbakgrunn

Tekstene i korpuset

Korpuset er satt sammen av de tekstene som Tekstlaboratoriet har hatt tilgjengelige pr januar 1999. Det omfatter tre genrer: skjønnlitteratur, avis/ukeblad og sakprosa. Skjønnlitteraturen er i sin helhet hentet fra ECI (European Corpus Initiative) og Norsk Tekstarkiv, Bergen (nå: HIT-senteret). Avis- og ukebladtekstene er samlet inn av Tekstlaboratoriet med velvillig tillatelse av de ulike redaksjonene. Sakprosatekstene består stort sett av NOU-rapporter, samt to bøker fra Norsk Tekstarkiv. Detaljert oversikt over de ulike tekstene, inkludert kilde og størrelse, finnes lenger bak.

Korpuset er ikke ment å være representativt i noen forstand, selv om det inneholder tekster fra til dels ulike genrer. Hovedformålet med det er å tilby en stor tekstmengde som forskerne kan benytte til søking. Men siden søkegrensesnittet gjør det mulig å søke etter bestemte kilder, kan korpuset i praksis virke som et mer skreddersydd korpus - man kan velge seg ut alle avistekstene eller alle skjønnlitteraturtekstene eller alle sakprosatekstene, eller enkelttekster, eller en hvilken som helst kombinasjon av dem.

Korpusprosjektet, som inkluderer innsamling av tekster, grammatisk tagging, kildekoding, IMS-koding, og utvikling av web-grensesnitt, har vært ledet av Janne Bondi Johannessen. Diana Santos utviklet det opprinnelige web-grensesnittet for regulære uttrykk (for The Oslo Corpus of Bosnian Texts), mens Sigurd Schiøth har videreutviklet web-grensesnittet til også å omfatte muligheten for å søke vha klikking i bokser. Tore Bjertnes Pedersen og Anders Nøklestad har utarbeidet kildeangivelser etter mønster av tilsvarende arbeid gjort ved Seksjon for leksikografi og målføregransking. Den grammatiske taggingen har hovedsakelig vært gjort av Kristin Hagen (morfologisk del) og Anders Nøklestad (syntaktisk del). Deler av taggeren (nærmere bestemt multitaggingsdelen) har vært utviklet i samarbeid med Dokumentasjonsprosjektet (ledet av Christian-Emil Ore), og programmeringen har vært utført av Lars-Jørgen Tvedt, og delvis av Helge Hauglin. Andre som har vært involvert, er Kristian Emil Kristoffersen, Arne Martinus Lindstad og Jan Tore Lønning.


Grammatiske tagger

Bak den grammatiske taggingen ligger det svært mye arbeid. Til sammen seks årsverk, hovedsakelig finansiert av Norges forskningsråd, Dokumentasjonsprosjektet og Tekstlaboratoriet, har gått med til å utvikle selve taggeren. Programvare fra Lingsoft, Finland, har vært brukt i arbeidet. Denne forutsetter en dependenstypegrammatikk (Constraint Grammar). De grammatiske taggene er søkbare i begge web-grensesnitt - både vha regulære uttrykk og vha klikk-og-skriv-grensesnittet. En oversikt over taggene finnes lenger bak.

Morfologiske tagger

De morfologiske taggene er strengt tatt morfosyntaktiske tagger. De angir ordklasse (som verb eller substantiv), samt alle de vanligste kategorier med trekk, slik som genus (maskulin, feminin, nøytrum), tall (entall, flertall), bestemthet (ubestemt, bestemt), tempus (preteritum, presens), for å nevne noen få. Det er i størst mulig grad gjort vinn på å følge Norsk Referansegrammatikk (Faarlund, J.T., S. Lie og K.I. Vannebo 1997) når det gjelder valg av ordklasse og trekk. Det har ført til f.eks. at alle tidligere stedsadverb nå er preposisjoner.

Syntaktiske tagger

De syntaktiske taggene angir vanlige syntaktiske funksjoner som subjekt og objekt. Alle syntaktiske tagger angis med en krøllalfa (@) foran. Siden grammatikken er av dependenstypen, hvor ethvert ord forholder seg til om det er kjerne eller utfylling, kommer det i tillegg mange mer uortodokse funksjoner, f.eks. : @<SBU (SUBJUNKSJON som modifiserer noe til venstre), @DET> (DETERMINATIV som modifiserer noe til høyre), @KON (KONJUNKSJON). Om det er en pil på den syntaktiske taggen, betyr det at dette ordet er en utfylling som modifiserer en kjerne som står i den retningen pila viser.


Kildeangivelser

Kildeangivelsene er utviklet etter mønster av arbeid gjort ved Seksjon for leksikografi, UiO. Et eksempel er:

Allbjart, Gunnar 'Flukten til livet' flukt.syn SK/AlGu/01

Kildeangivelsen er koden på slutten av linjen. SK står for skjønnlitteratur (AV=avis/ukeblad og SA=sakprosa finnes også), de fire bokstavene i midtfeltet angir forfatter (eventuelt avis med årstall), og det siste tallet angir ganske enkelt hvilken fil det er, hvis vi har flere verker av samme forfatter eller flere filer fra samme avis. Det understrekes at en fil ikke tilsvarer noen naturlig mengde når det gjelder avisene, slik at f.eks. AV/Af94/01 består av 26 nummere av Aftenposten 1994. En fullstendig oversikt finnes lenger bak.


Typer av mulige søk

Vi tilbyr to forskjellige søkemåter, en enkel og en mer komplisert, som begge tillater svært komplekse søk. Den enkle søkemåten har vi kalt Klikk og skriv, fordi man kan spesifisere all informasjon om søket vha klikking i bokser, eventuelt kan man søke etter bestemte ord eller deler av ord - da må man selvfølgelig skrive dem. Den kompliserte måten er søking vha regulære uttrykk. Her må all informasjon om søket gis vha et regulært uttrykksspråk. Det mest kompliserte ved denne sistnevnte måten er kanskje at man må vite navnet på de ulike taggene og teksttypene på forhånd for å kunne nevne dem i søkeuttrykket.

Man kan be om å søke på ord, deler av ord, grammatiske (morfologiske og syntaktiske) tagger og begrensninger innenfor teksttype, og kombinere slike søk på et utall av måter. Man kan be om en KWIC-konkordanse (KWIC, KeyWord In Context) eller be om distribusjon av resultatene, former eller av kilde eller grammatisk kategori. Man kan samtidig få både konkordanse og distribusjon. Man kan også be om at konkordansen skal vise taggene på søkeordet og eventuelt på ordene i kontektsten.

Søking med regulære uttrykk

Denne typen søking er den mest fleksible, her er det knapt noen grenser for hvilke kombinasjoner man kan søke etter. Ved selv å formulere regulære uttrykk kan man oppnå nøyaktig det man ønsker. Samtidig må det nevnes at det kan ta forholdsvis lang tid å få resultatene fra denne typen søk.

Eksempler:

Videre kan man benytte korpusets grammatiske tagger og kildeangivelse i søkingen:

Søking med klikk og skriv

Klikk og skriv-muligheten er betydelig enklere å bruke enn systemet med regulære uttrykk. Man behøver ikke kjenne noen av kodene til verken grammatiske tagger eller tekstkilder, og man behøver ikke selv konstruere de regulære uttrykkene. Isteden klikker man seg gjennom et system med bokser og menyer. Denne typen søk gir også raske resultater.

Man har muligheten til å søke på ett eller to ord - eller deler av ord (begynnelse eller slutt) - rett etter hverandre, eller med et selvvalgt antall ord mellom. Man kan bestemme at et eller begge av ordene er spesifisert mht grammatisk kategori (mer eller mindre spesifisert) og/eller teksttype. Videre kan man velge å unnlate å spesifisere selve ordstrengen, og heller bare velge grammatisk kategori.

Eksempler på hovedtyper av søk

Eksempler på kombinasjoner av søkekriteriene over


Hvordan få tillatelse til å bruke korpuset

Oslo-korpuset av taggede tekster (bokmål) er tilgjengelig for alle som ønsker å bruke det til forskning og undervisning, dvs. all ikke-kommersiell bruk. For å få tillatelse, inkludert brukernavn og passord, sender man en e-post til Tekstlaboratoriet (tekstlab@ilf.uio.no) med følgende informasjon:

  1. NAVN
  2. ADRESSE
  3. INSTITUSJONSTILKNYTNING
  4. foreslått BRUKERNAVN for korpuset,
  5. foreslått PASSORD for å bruke korpuset (IKKE det passordet du ellers bruker!)
  6. UTTALELSE 1 ("Jeg lover å bruke Oslo-korpuset av taggede tekster (bokmål) utelukkende for akademiske, ikke-kommersielle formål")
  7. UTTALELSE 2 ("Jeg lover å la passordet mitt være strengt personlig, og vil ikke distribuere det videre til noen person eller institusjon. ")
  8. UTTALELSE 3 ("Jeg vil alltid referere skikkelig til korpuset med navn og internettadresse i alt jeg skriver hvor korpuset er brukt, både når det gjelder publiserte og upubliserte tekster.

Du vil få svar i løpet av kort tid.


Teknisk informasjon

IMS Corpus Workbench

Dette er et grensesnitt mot CQP, Corpus Query Processor, som hører til IMS Corpus Workbench, utviklet av Oliver Christ og Bruno Maximilian Schulze ved Institut für Maschinelle Sprachverarbeitung, Universitetet i Stuttgart. Prøv gjerne ut deres liste over hyppige spørsmål.

Vi er svært glade for å ha fått lov til å bruke CQP-søkeverktøyet til forskningsformål.

De som kjenner CQP-grensesnittet, kan bruke det så godt som i sin helhet her. Noen restriksjoner vil bli beskrevet nedenfor.


Korpus-struktur og koding

Det er brukt tegnsett ISO-8859-1 i korpuset. Det er også laget en ren ASCII-versjon.

Korpuset er satt sammen av det elektroniske materialet for norsk som Tekstlaboratoriet hadde tilgjengelig pr. januar 1999. Mesteparten av dette materialet har vi overtatt i elektronisk form, enten direkte fra avis, forfatter eller forlag - eller via andre tekstinnsamlere som Humanistisk datasenter i Bergen (nå: HIT-senteret) og ECI (European Corpus Initiative). Vi har også lastet ned fra internett statlige informasjonsskriv (NOU-rapporter). Vi er svært takknemlige over å ha fått tillatelse fra aviser, forlag og forfattere til å benytte tekstene deres i dette første Oslo-korpuset. Vi har ikke gjort noen endringer i tekstene, bortsett fra at enkelte tall-tabeller som måtte finnes i enkelte tekster, er fjernet. Vi har beholdt overskrifter, billedtekster og annet som i utgangspunktet kans kje kunne vært et problem for taggeren. Isteden ble taggeren utviklet med tanke på også å takle en del slike teksttyper - i begrenset grad riktig nok.

Korpuset er tagget med UiOs multitagger (utviklet av Tekstlaboratoriet og Dokumentasjonsprosjektet i samarbeid), og deretter med vår disambiguerende tagger, utviklet ved Tekstlaboratoriet (med programvare fra Lingsoft, Finland). Korpuset er blitt gjort om til CQP-format automatisk, fra rene tekstfiler med meta-informasjon i headeren, og fra en innholdsfortegnelse med riktig tekstidentifikator.

Korpuset er ikke korrekturlest.

Til slutt gjør vi oppmerksom på noen punkter hvor vårt korpus avviker fra Corpus Workbench:


Informasjon om søkegrensesnittet

Det nåværende søkegrensesnittet gjør det mulig

Søkeresultatet vises sammen med en angivelse av hva slags søk som ble foretatt av brukeren, samt dato og antall søketreff.

I noen tilfeller blir det gitt advarsler eller hjelpemeldinger. For eksempel:

Viktige begrensninger

For å hindre brukerne i å laste ned hele tekster til sin maskin har vi lagt inn følgende begrensninger:


Taggerens prestasjonsnivå

Vi har undersøkt den disambiguerende taggerens prestasjonsnivå på treningskorpuset, et manuelt tagget korpus som vi testet taggeren på mens vi arbeidet med den. Resultatene viste at taggeren hadde en leksikalsk funnrate på 99,2%, dvs. at den beholdt 99,2% av de riktige taggene. Presisjonsnivået, som angir hvor mange gale tagger som er fjernet, var på 96,8%.

Selv om disse tallene er høye, vil man likevel ofte finne at når man søker etter ord med en bestemt ordklasse, finner systemet en del ord som ikke skulle ha denne ordklassen i den aktuelle konteksten. Hvis man f.eks. søker etter ordet springer som substantiv, vil systemet bl.a. finne det følgende uthevede ordet:

Da springer hun, springer til hun kjenner smaken av blod og gråt som salt i strupen.

I noen tilfeller betyr dette at taggeren har valgt feil ordklasse på ordet, men vanligvis betyr det at taggeren ikke har tatt sjansen på å fjerne den ukorrekte taggen, slik at ordet fortsatt er flertydig. Springer i setningen ovenfor er for eksempel fremdeles listet som både substantiv og verb i korpuset; dette ser man hvis man velger å få resultatet vist med tagger på søkeordet:

Da springer hun, springer
"spring" subst mask appell fl ub @OBJ @I-OBJ
"springe" verb pres <intrans1> <intrans2> @FV
"springer" subst mask appell ent ub @OBJ @I-OBJ

til hun kjenner smaken av blod og gråt som salt i strupen.

Ofte er det også slik at ordet er genuint flertydig syntaktisk sett, selv om vår kunnskap om ordenes betydning vanligvis gjør at vi som lesere bare oppfatter én av tolkningene. Se på følgende eksempel:

Må også du være med på den enkle leken som alle leker
"lek" subst mask appell fl ub @SUBJ @S-PRED @<P-UTFYLL
"leke" subst fem appell fl ub @SUBJ @S-PRED @<P-UTFYLL
"leke" subst mask appell fl ub @SUBJ @S-PRED @<P-UTFYLL
"leke" verb pres <intrans1> <trans1> @FV

når livet blir for vanskelig

Siden taggeren ikke har tilgang til semantisk/pragmatisk informasjon, har den ikke mulighet til å utelukke substantivtolkningene av leker her. Dette ser vi hvis vi sammenlikner denne setningen med en setning som Må du også være med på den enkle leken som alle barn når livet blir for vanskelig, der vi finner substantivet barn i nøyaktig samme kontekst som leker i setningen over.

Selv om vi har brukt den syntaktiko-semantiske informasjonen om verbenes argumentstruktur som vi har fått fra NorKompLeks-prosjektet ved NTNU, kan det oppstå syntaktisk flertydighet hvis denne informasjonen er mangelfull eller taggeren ikke klarer å gjøre god nok bruk av den. Hvis man f.eks. søker i korpuset etter døde som verb, vil man bl.a. få følgende resultat:

Men i dag skal vi begrave de døde
"dø" verb pret <intrans2> <trans5> @FV
"død" adj pos mask fem nøyt be ent @SUBJ @OBJ @S-PRED
"død" adj pos ub be fl @SUBJ @OBJ @S-PRED
"døde" subst appell ubøy @SUBJ @OBJ @S-PRED

Her kan det være vanskelig å se hvordan døde kan bli stående som mulig verb. Det som har skjedd, er at taggeren ikke har tatt sjansen på å utelukke at begrave kan være et verb som tar at-setning som objekt, og at vi har et underforstått at mellom begrave og de. Hvis dette var tilfelle, ville setningen kunne ha samme struktur som Men i dag skal vi si (at) de døde, der døde jo faktisk er et verb.

Hvis man undersøker de feilene taggeren gjør og bestreber seg på å finne andre analyser enn de mest iøynefallende, vil man se at genuin syntaktisk flertydighet er langt mer utbredt enn man skulle tro. Det virker derfor vanskelig å få økt taggerens presisjon (evne til å fjerne uriktige tagger) ytterligere uten å inkludere semantisk (ev. også pragmatisk) informasjon om ordene i leksikonet.


Publikasjoner

Publikasjoner hvor korpuset er brukt

Vi ser gjerne at forskere som har brukt korpuset i foredrag eller skriftlige arbeider, forteller oss om det. Vi vil gjerne lage en liste over slike arbeider, til nytte og glede for oss alle.

Om tagging

Vitenskapelige tidsskrifter og antologier:

Upublisert:


Versjon

Dette er versjon 1.1 av korpuset, tagget med versjon 1.1 av multitaggeren, og 1.1 av den disambiguerende taggeren.


[Neste | Innhold | Tekstlab]


19. april 2001, AN, <anders.noklestad@ilf.uio.no>