Tekstlab hjemmeside

UiO hjemmeside English      

Oslo-korpuset av taggede norske tekster (bokmålsdelen)

Bokmålsdelen av Oslo-korpuset inneholder omtrent 18,5 millioner ord, som er kodet i forhold til standarden til IMS Corpus Workbench, Institut für Maschinelle Sprachverarbeitung, ved Universitetet i Stuttgart. Grensesnittet er utviklet ved Tekstlaboratoriet.

  1. Tekstene i korpuset
  2. Typer av mulige søk
  3. Hvordan få tillatelse til å benytte korpuset
  4. Teknisk informasjon
  5. Frekvensordlister
  6. Publikasjoner
  7. Versjon
  8. Planlagte forbedringer
  9. Oversikt over brukerne av korpuset
  10. Kontaktside
Konkordans med avisbakgrunn

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Tekstlaboratoriets hjemmeside] [Nynorskkorpuset ] Tekstlab hjemmeside


Tekstene i korpuset

Korpuset er satt sammen av de tekstene som Tekstlaboratoriet har hatt tilgjengelige pr januar 1999. Korpuset består av 18,3 millioner ord, og omfatter tre genrer: skjønnlitteratur (1,7 mill. ord), avis/ukeblad (9,6 mill. ord) og sakprosa (6,9 mill. ord). Skjønnlitteraturen er i sin helhet hentet fra ECI (European Corpus Initiative) og Norsk Tekstarkiv, Bergen (nå: HIT-senteret). Avis- og ukebladtekstene er samlet inn av Tekstlaboratoriet med velvillig tillatelse av de ulike redaksjonene. Sakprosatekstene består av NOU-rapporter og norske lover og forskrifter. Detaljert oversikt over de ulike tekstene, inkludert kildereferansekode og tekststørrelse, finnes her.

Korpuset er ikke ment å være representativt i noen forstand, selv om det inneholder tekster fra til dels ulike genrer. Hovedformålet med det er å tilby en stor tekstmengde som forskerne kan benytte til søking. Men siden søkegrensesnittet gjør det mulig å søke etter bestemte kilder, kan korpuset i praksis virke som et mer skreddersydd korpus - man kan velge seg ut alle avistekstene eller alle skjønnlitteraturtekstene eller alle sakprosatekstene, eller enkelttekster, eller en hvilken som helst kombinasjon av dem.

Korpusprosjektet, som inkluderer innsamling av tekster, grammatisk tagging, kildekoding, IMS-koding, og utvikling av web-grensesnitt, har vært ledet av Janne Bondi Johannessen. Diana Santos utviklet det opprinnelige web-grensesnittet for regulære uttrykk (for The Oslo Corpus of Bosnian Texts), mens Sigurd Schiøth og Anders Nøklestad har videreutviklet web-grensesnittet til også å omfatte muligheten for å søke vha klikking i bokser. Tore Bjertnes Pedersen og Anders Nøklestad har utarbeidet kildeangivelser etter mønster av tilsvarende arbeid gjort ved Seksjon for leksikografi og målføregransking. Den grammatiske taggingen har hovedsakelig vært gjort av Kristin Hagen (morfologisk del) og Anders Nøklestad (syntaktisk del) (men se her for en full oversik t over involverte personer). Deler av taggeren (nærmere bestemt multitaggingsdelen) har vært utviklet i samarbeid med Dokumentasjonsprosjektet (ledet av Christian-Emil Ore), og programmeringen har vært utført av Lars-Jørgen Tvedt, og delvis av Helge Hauglin.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]


Grammatiske tagger

Bak den grammatiske taggingen ligger det svært mye arbeid. Til sammen seks årsverk, hovedsakelig finansiert av Norges forskningsråd, Dokumentasjonsprosjektet og Tekstlaboratoriet, har gått med til å utvikle selve taggeren. Programvare fra Lingsoft, Finland, har vært brukt i arbeidet. Denne forutsetter en dependenstypegrammatikk (Constraint Grammar). De grammatiske taggene er søkbare i begge web-grensesnitt - både vha regulære uttrykk og vha klikk-og-skriv-grensesnittet.

Morfologiske tagger

De morfologiske taggene er strengt tatt morfosyntaktiske tagger. De angir ordklasse, samt alle de vanligste kategorier med trekk, slik som genus (maskulin, feminin, nøytrum), tall (entall, flertall), bestemthet (ubestemt, bestemt), tempus (preteritum, presens), for å nevne noen få. En full oversikt finnes her. Det er i størst mulig grad gjort vinn på å følge Norsk Referansegrammatikk når det gjelder valg av ordklasse og trekk. Det har ført til f.eks. at alle tidligere stedsadverb nå er preposisjoner.

Syntaktiske tagger

De syntaktiske taggene angir vanlige syntaktiske funksjoner som subjekt og objekt. Alle syntaktiske tagger angis med en krøllalfa (@) foran. Siden grammatikken er av dependenstypen, hvor ethvert ord forholder seg til om det er kjerne eller utfylling, kommer det i tillegg mange mer uortodokse tagger, f.eks. : @<SBU (SUBJUNKSJON som modifiserer noe til venstre), @DET> (DETERMINATIV som modifiserer noe til høyre), @KON (KONJUNKSJON). Om det er en pil på den syntaktiske taggen, betyr det at dette ordet er en utfylling som modifiserer en kjerne som står i den retningen pila viser. En full oversikt vises her.

Kildeangivelser

Kildeangivelsene er utviklet etter mønster av arbeid gjort ved Seksjon for leksikografi, UiO. Et eksempel er:

Allbjart, Gunnar 'Flukten til livet' flukt.syn SK/AlGu/01

Kildeangivelsen er koden på slutten av linjen. SK står for skjønnlitteratur (AV=avis/ukeblad og SA=sakprosa finnes også), de fire bokstavene i midtfeltet angir forfatter (eventuelt avis med årstall), og det siste tallet angir ganske enkelt hvilken fil det er, hvis vi har flere verker av samme forfatter eller flere filer fra samme avis. Det understrekes at en fil ikke tilsvarer noen naturlig mengde når det gjelder avisene, slik at f.eks. AV/Af94/01 består av 26 nummere av Aftenposten 1994. En fullstendig oversikt finnes her.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]


Typer av mulige søk

Vi tilbyr to forskjellige søkemåter, en enkel og en mer komplisert, som begge tillater svært komplekse søk. Den enkle søkemåten har vi kalt Klikk og skriv, fordi man kan spesifisere all informasjon om søket vha klikking i bokser, eventuelt kan man søke etter bestemte ord eller deler av ord - da må man selvfølgelig skrive dem. Den kompliserte måten er søking vha regulære uttrykk. Her må all informasjon om søket gis vha et regulært uttrykksspråk. Det mest kompliserte ved denne sistnevnte måten er kanskje at man må vite navnet på de ulike taggene og teksttypene på forhånd for å kunne nevne dem i søkeuttrykket. Grensesnittet med regulære uttrykk ble først utviklet av Diana Santos for Tekstlaboratoriets bosniskkorpus. Klikk og skriv-grensesnittet ble videreutviklet fra dette av Sigurd Schiøth og Anders Nøklestad.

Man kan be om å søke på ord, deler av ord, grammatiske (morfologiske og syntaktiske) tagger og begrensninger innenfor teksttype, og kombinere slike søk på et utall av måter. Man kan be om en KWIC-konkordans (KWIC, KeyWord In Context) eller be om distribusjon av resultatene etter former eller kilde. Man kan samtidig få både konkordans og distribusjon. Man kan også be om at konkordansen skal vise taggene på søkeordet og eventuelt på ordene i kontektsten.

Søking med regulære uttrykk

Denne typen søking er den mest fleksible, her er det knapt noen grenser for hvilke kombinasjoner man kan søke etter. Ved selv å formulere regulære uttrykk kan man oppnå nøyaktig det man ønsker.

Eksempler:

Videre kan man benytte korpusets grammatiske tagger og kildeangivelse i søkingen:

Søking med klikk og skriv

Klikk og skriv-muligheten er betydelig enklere å bruke enn systemet med regulære uttrykk. Man behøver ikke kjenne noen av kodene til verken grammatiske tagger eller tekstkilder, og man behøver ikke selv konstruere de regulære uttrykkene. Isteden klikker man seg gjennom et system med bokser og menyer.

Man har muligheten til å søke på ett, to eller tre ord - eller deler av ord (begynnelse eller slutt) - rett etter hverandre, eller med et selvvalgt antall ord mellom. Man kan bestemme at et eller flere av ordene er spesifisert mht grammatisk kategori (mer eller mindre spesifisert) og/eller teksttype. Videre kan man velge å unnlate å spesifisere selve ordstrengen, og heller bare velge grammatisk kategori.

Husk! For hvert nytt søk: Tøm skjemaet.

Eksempler på hovedtyper av søk

Eksempler på kombinasjoner av søkekriteriene over

[Søk i korpuset] [Toppen av siden]


Teknisk informasjon

IMS Corpus Workbench

Dette er et grensesnitt mot CQP, Corpus Query Processor, som hører til IMS Corpus Workbench, utviklet av Oliver Christ og Bruno Maximilian Schulze ved Institut für Maschinelle Sprachverarbeitung, Universitetet i Stuttgart. Prøv gjerne ut deres liste over hyppige spørsmål.

Vi er svært glade for å ha fått lov til å bruke CQP-søkeverktøyet til forskningsformål.

De som kjenner CQP-grensesnittet, kan bruke det så godt som i sin helhet her. Noen restriksjoner vil bli beskrevet nedenfor.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]


Korpus-struktur og koding

Det er brukt tegnsett ISO-8859-1 i korpuset. Det er også laget en ren ASCII-versjon.

Korpuset er satt sammen av det elektroniske materialet for norsk som Tekstlaboratoriet hadde tilgjengelig pr. januar 1999. Mesteparten av dette materialet har vi overtatt i elektronisk form, enten direkte fra avis, forfatter eller forlag - eller via andre tekstinnsamlere som Humanistisk datasenter i Bergen (nå: HIT-senteret) og ECI (European Corpus Initiative). Vi har også lastet ned fra internett statlige informasjonsskriv (NOU-rapporter). Vi er svært takknemlige over å ha fått tillatelse fra aviser, forlag og forfattere til å benytte tekstene deres i dette første Oslo-korpuset. Vi har ikke gjort noen endringer i tekstene, bortsett fra at enkelte tall-tabeller som måtte finnes i enkelte tekster, er fjernet. Vi har beholdt overskrifter, billedtekster og annet som i utgangspunktet kans kje kunne vært et problem for taggeren. Isteden ble taggeren utviklet med tanke på også å takle en del slike teksttyper - i begrenset grad riktig nok.

Korpuset er tagget med UiOs multitagger (utviklet av Tekstlaboratoriet og Dokumentasjonsprosjektet i samarbeid), og deretter med vår disambiguerende tagger, utviklet ved Tekstlaboratoriet (med programvare fra Lingsoft, Finland). Korpuset er blitt gjort om til CQP-format automatisk, fra rene tekstfiler med meta-informasjon i headeren, og fra en innholdsfortegnelse med riktig tekstidentifikator.

Korpuset er ikke korrekturlest.

Til slutt gjør vi oppmerksom på noen punkter hvor vårt korpus avviker fra Corpus Workbench:

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]


Informasjon om søkegrensesnittet

Det nåværende søkegrensesnittet gjør det mulig

Søkeresultatet vises sammen med en angivelse av hva slags søk som ble foretatt av brukeren, samt dato og antall søketreff.

I noen tilfeller blir det gitt advarsler eller hjelpemeldinger. For eksempel:

Viktige begrensninger

For å hindre brukerne i å laste ned hele tekster til sin maskin har vi lagt inn følgende begrensninger:

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]


Taggerens prestasjonsnivå

Vi har undersøkt den disambiguerende taggerens prestasjonsnivå på et testkorpus, det vil si et ukjent korpus for taggeren. Testkorpuset er manuelt tagget og inneholder ca 30 000 ord hentet fra aviser, ukeblader, tidsskrifter og offentlige utredninger. Resultatene viser (juni 2002) at taggeren har en leksikalsk funnrate på 99 %, dvs. at den beholder 99 % av de riktige taggene. Presisjonen er på 95,4 %, noe som betyr at 95,4 % av de taggene som blir stående igjen, er riktige.

Selv om disse tallene er høye, vil man likevel finne at når man søker etter ord med en bestemt ordklasse, finner systemet en del ord som ikke skulle ha denne ordklassen i den aktuelle konteksten. Hvis man f.eks. søker etter ordet springer som substantiv, vil systemet bl.a. finne det følgende uthevede ordet:

Da springer hun, springer til hun kjenner smaken av blod og gråt som salt i strupen.

I noen tilfeller betyr dette at taggeren har valgt feil ordklasse på ordet, men vanligvis betyr det at taggeren ikke har tatt sjansen på å fjerne den ukorrekte taggen, slik at ordet fortsatt er flertydig. Springer i setningen ovenfor er for eksempel fremdeles listet som både substantiv og verb i korpuset; dette ser man hvis man velger å få resultatet vist med tagger på søkeordet:

Da springer hun, springer
"spring" subst mask appell fl ub @OBJ @I-OBJ
"springe" verb pres <intrans1> <intrans2> @FV
"springer" subst mask appell ent ub @OBJ @I-OBJ

til hun kjenner smaken av blod og gråt som salt i strupen.

Ofte er det også slik at ordet er genuint flertydig syntaktisk sett, selv om vår kunnskap om ordenes betydning vanligvis gjør at vi som lesere bare oppfatter én av tolkningene. Se på følgende eksempel:

Må også du være med på den enkle leken som alle leker
"lek" subst mask appell fl ub @SUBJ @S-PRED @<P-UTFYLL
"leke" subst fem appell fl ub @SUBJ @S-PRED @<P-UTFYLL
"leke" subst mask appell fl ub @SUBJ @S-PRED @<P-UTFYLL
"leke" verb pres <intrans1> <trans1> @FV

når livet blir for vanskelig

Siden taggeren ikke har tilgang til semantisk/pragmatisk informasjon, har den ikke mulighet til å utelukke substantivtolkningene av leker her. Dette ser vi hvis vi sammenlikner denne setningen med en setning som Må du også være med på den enkle leken som alle barn når livet blir for vanskelig, der vi finner substantivet barn i nøyaktig samme kontekst som leker i setningen over.

Selv om vi har brukt den syntaktiko-semantiske informasjonen om verbenes argumentstruktur som vi har fått fra NorKompLeks-prosjektet ved NTNU, kan det oppstå syntaktisk flertydighet hvis denne informasjonen er mangelfull eller taggeren ikke klarer å gjøre god nok bruk av den. Hvis man f.eks. søker i korpuset etter døde som verb, vil man bl.a. få følgende resultat:

Men i dag skal vi begrave de døde
"dø" verb pret <intrans2> <trans5> @FV
"død" adj pos mask fem nøyt be ent @SUBJ @OBJ @S-PRED
"død" adj pos ub be fl @SUBJ @OBJ @S-PRED
"døde" subst appell ubøy @SUBJ @OBJ @S-PRED

Her kan det være vanskelig å se hvordan døde kan bli stående som mulig verb. Det som har skjedd, er at taggeren ikke har tatt sjansen på å utelukke at begrave kan være et verb som tar at-setning som objekt, og at vi har et underforstått at mellom begrave og de. Hvis dette var tilfelle, ville setningen kunne ha samme struktur som Men i dag skal vi si (at) de døde, der døde jo faktisk er et verb.

Hvis man undersøker de feilene taggeren gjør og bestreber seg på å finne andre analyser enn de mest iøynefallende, vil man se at genuin syntaktisk flertydighet er langt mer utbredt enn man skulle tro. Det virker derfor vanskelig å få økt taggerens presisjon (evne til å fjerne uriktige tagger) ytterligere uten å inkludere semantisk (ev. også pragmatisk) informasjon om ordene i leksikonet.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]


Publikasjoner

Publikasjoner hvor korpuset er brukt

Vi ser gjerne at forskere som har brukt korpuset i foredrag eller skriftlige arbeider, forteller oss om det. Vi vil gjerne utvide denne lista over slike arbeider, til nytte og glede for oss alle.

Om tagging

Vitenskapelige tidsskrifter og antologier:

Upublisert:

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]


Versjon

Dette er versjon 2 av korpuset, tagget med versjon 2 av multitaggeren, og versjon 2 av den disambiguerende taggeren.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]


Planlagte forbedringer

Vi har planlagt noen forbedringer som vi håper vil komme i løpet av nokså kort tid. Noen av dem vil vi foreta fortløpende, andre vil vi introdusere samtidig med innføring av neste versjon av Oslo-korpuset.

Vi ønsker alltid å kunne forbedre Oslo-korpuset. Derfor setter vi pris på alle forslag til forbedringer, enten til tekstlab-post@iln.uio.no, eller til korpus-diskusjonslista, oktnt-list@iln.uio.no. Vi vil gjerne takke Stig Johansson, Elisabet Engdahl, Johan Laurits Tønnesson og Carl Vikner for deres konstruktive forslag.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]


Kontakt oss.

Opprettet av Janne Bondi Johannessen.
Oppdatert 7. mai 2007 av AN.