English

Oslo-korpuset av taggede norske tekster (bokmålsdelen)

Bokmålsdelen av Oslo-korpuset inneholder omtrent 18,5 millioner ord, som er kodet i forhold til standarden til IMS Corpus Workbench, Institut für Maschinelle Sprachverarbeitung, ved Universitetet i Stuttgart. Grensesnittet er utviklet ved Tekstlaboratoriet.

Tekstene i korpuset
- Grammatiske tagger
- Kildeangivelser
Typer av mulige søk
Innlogging
Teknisk informasjon
Frekvensordlister
Publikasjoner
Versjon
Planlagte forbedringer
Oversikt over brukerne av korpuset
Kontaktside

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Tekstlaboratoriets hjemmeside] [Nynorskkorpuset ]

Tekstene i korpuset

Korpuset er satt sammen av de tekstene som Tekstlaboratoriet har hatt tilgjengelige pr januar 1999. Korpuset består av 18,3 millioner ord, og omfatter tre genrer: skjønnlitteratur (1,7 mill. ord), avis/ukeblad (9,6 mill. ord) og sakprosa (6,9 mill. ord). Skjønnlitteraturen er i sin helhet hentet fra ECI (European Corpus Initiative) og Norsk Tekstarkiv, Bergen (nå: HIT-senteret). Avis- og ukebladtekstene er samlet inn av Tekstlaboratoriet med velvillig tillatelse av de ulike redaksjonene. Sakprosatekstene består av NOU-rapporter og norske lover og forskrifter. Detaljert oversikt over de ulike tekstene, inkludert kildereferansekode og tekststørrelse, finnes her.

Korpuset er ikke ment å være representativt i noen forstand, selv om det inneholder tekster fra til dels ulike genrer. Hovedformålet med det er å tilby en stor tekstmengde som forskerne kan benytte til søking. Men siden søkegrensesnittet gjør det mulig å søke etter bestemte kilder, kan korpuset i praksis virke som et mer skreddersydd korpus - man kan velge seg ut alle avistekstene eller alle skjønnlitteraturtekstene eller alle sakprosatekstene, eller enkelttekster, eller en hvilken som helst kombinasjon av dem.

Korpusprosjektet, som inkluderer innsamling av tekster, grammatisk tagging, kildekoding, IMS-koding, og utvikling av web-grensesnitt, har vært ledet av Janne Bondi Johannessen. Diana Santos utviklet det opprinnelige web-grensesnittet for regulære uttrykk (for The Oslo Corpus of Bosnian Texts), mens Sigurd Schiøth og Anders Nøklestad har videreutviklet web-grensesnittet til også å omfatte muligheten for å søke vha klikking i bokser. Tore Bjertnes Pedersen og Anders Nøklestad har utarbeidet kildeangivelser etter mønster av tilsvarende arbeid gjort ved Seksjon for leksikografi og målføregransking. Den grammatiske taggingen har hovedsakelig vært gjort av Kristin Hagen (morfologisk del) og Anders Nøklestad (syntaktisk del) (men se her for en full oversik t over involverte personer). Deler av taggeren (nærmere bestemt multitaggingsdelen) har vært utviklet i samarbeid med Dokumentasjonsprosjektet (ledet av Christian-Emil Ore), og programmeringen har vært utført av Lars-Jørgen Tvedt, og delvis av Helge Hauglin.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]

Grammatiske tagger

Bak den grammatiske taggingen ligger det svært mye arbeid. Til sammen seks årsverk, hovedsakelig finansiert av Norges forskningsråd, Dokumentasjonsprosjektet og Tekstlaboratoriet, har gått med til å utvikle selve taggeren. Programvare fra Lingsoft, Finland, har vært brukt i arbeidet. Denne forutsetter en dependenstypegrammatikk (Constraint Grammar). De grammatiske taggene er søkbare i begge web-grensesnitt - både vha regulære uttrykk og vha klikk-og-skriv-grensesnittet.

Morfologiske tagger

De morfologiske taggene er strengt tatt morfosyntaktiske tagger. De angir ordklasse, samt alle de vanligste kategorier med trekk, slik som genus (maskulin, feminin, nøytrum), tall (entall, flertall), bestemthet (ubestemt, bestemt), tempus (preteritum, presens), for å nevne noen få. En full oversikt finnes her. Det er i størst mulig grad gjort vinn på å følge Norsk Referansegrammatikk når det gjelder valg av ordklasse og trekk. Det har ført til f.eks. at alle tidligere stedsadverb nå er preposisjoner.

Syntaktiske tagger

De syntaktiske taggene angir vanlige syntaktiske funksjoner som subjekt og objekt. Alle syntaktiske tagger angis med en krøllalfa (@) foran. Siden grammatikken er av dependenstypen, hvor ethvert ord forholder seg til om det er kjerne eller utfylling, kommer det i tillegg mange mer uortodokse tagger, f.eks. : @<SBU (SUBJUNKSJON som modifiserer noe til venstre), @DET> (DETERMINATIV som modifiserer noe til høyre), @KON (KONJUNKSJON). Om det er en pil på den syntaktiske taggen, betyr det at dette ordet er en utfylling som modifiserer en kjerne som står i den retningen pila viser. En full oversikt vises her.

Kildeangivelser

Kildeangivelsene er utviklet etter mønster av arbeid gjort ved Seksjon for leksikografi, UiO. Et eksempel er:

Allbjart, Gunnar 'Flukten til livet' flukt.syn SK/AlGu/01

Kildeangivelsen er koden på slutten av linjen. SK står for skjønnlitteratur (AV=avis/ukeblad og SA=sakprosa finnes også), de fire bokstavene i midtfeltet angir forfatter (eventuelt avis med årstall), og det siste tallet angir ganske enkelt hvilken fil det er, hvis vi har flere verker av samme forfatter eller flere filer fra samme avis. Det understrekes at en fil ikke tilsvarer noen naturlig mengde når det gjelder avisene, slik at f.eks. AV/Af94/01 består av 26 nummere av Aftenposten 1994. En fullstendig oversikt finnes her.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]

Typer av mulige søk

Vi tilbyr to forskjellige søkemåter, en enkel og en mer komplisert, som begge tillater svært komplekse søk. Den enkle søkemåten har vi kalt Klikk og skriv, fordi man kan spesifisere all informasjon om søket vha klikking i bokser, eventuelt kan man søke etter bestemte ord eller deler av ord - da må man selvfølgelig skrive dem. Den kompliserte måten er søking vha regulære uttrykk. Her må all informasjon om søket gis vha et regulært uttrykksspråk. Det mest kompliserte ved denne sistnevnte måten er kanskje at man må vite navnet på de ulike taggene og teksttypene på forhånd for å kunne nevne dem i søkeuttrykket. Grensesnittet med regulære uttrykk ble først utviklet av Diana Santos for Tekstlaboratoriets bosniskkorpus. Klikk og skriv-grensesnittet ble videreutviklet fra dette av Sigurd Schiøth og Anders Nøklestad.

Man kan be om å søke på ord, deler av ord, grammatiske (morfologiske og syntaktiske) tagger og begrensninger innenfor teksttype, og kombinere slike søk på et utall av måter. Man kan be om en KWIC-konkordans (KWIC, KeyWord In Context) eller be om distribusjon av resultatene etter former eller kilde. Man kan samtidig få både konkordans og distribusjon. Man kan også be om at konkordansen skal vise taggene på søkeordet og eventuelt på ordene i kontektsten.

Søking med regulære uttrykk

Denne typen søking er den mest fleksible, her er det knapt noen grenser for hvilke kombinasjoner man kan søke etter. Ved selv å formulere regulære uttrykk kan man oppnå nøyaktig det man ønsker.

Eksempler:

"jente" Alle forekomster av ordet jente.
"interess.*" Alle ord som begynner med bokstavene interess, f.eks. interesserer, interessant.
".*else" Alle ord som ender på bokstavene else, f.eks. forbauselse, forskrekkelse.
".*r" "be.*" Alle sekvenser av to ord som står rett ved siden av hverandre, hvor det første ender på -r og det andre begynner på -be, f.eks. eller begynne, har bestemt.
"jeg" []{0,7} "og" Ordet jeg fulgt av ordet og med opptil sju ord mellom, f.eks. ...jeg var ute i samme ærend og ble glad...

Videre kan man benytte korpusets grammatiske tagger og kildeangivelse i søkingen:

[src="SK.*" & word="be.*"] Begrenset til skjønnlitteratur: Alle forekomster av ord som begynner på be-, f.eks. bena, bestemt.
[src="SK.*" & tag=".*verb.*" & word="be.*"] Begrenset til skjønnlitteratur: Alle forekomster av ord som begynner på be- og er verb, f.eks. bestemt, begynner, men ikke bena, begynnelse.
[(src="SK.*" | src="SA.*") & tag=".*verb.*" & tag=".*pres.*" & word="be.*"] Begrenset til skjønnlitteratur og sakprosa: Alle forekomster av ord som begynner på be- og er verb og presens, f.eks. bestemmer, begynner, men ikke bena, begynnelse, bestemt.
[src="AV/Af.*" & tag=".*verb.*" & tag=".*pres.*" & word="be.*"] Begrenset til Aftenposten: Alle forekomster av ord som begynner på be- og er verb og presens, f.eks. bestemmer, begynner, men ikke bena, begynnelse, bestemt.
[src="SK.*" & tag=".*verb.*"] Begrenset til skjønnlitteratur: Alle forekomster av verb, f.eks. pustet, bestemmer.
[src="SK.*" & tag=".*verb.*"] [tag=".*prep.*"] Begrenset til skjønnlitteratur: Alle forekomster av verb, fulgt av preposisjon, f.eks. pustet ut, bestemmer for.

Søking med klikk og skriv

Klikk og skriv-muligheten er betydelig enklere å bruke enn systemet med regulære uttrykk. Man behøver ikke kjenne noen av kodene til verken grammatiske tagger eller tekstkilder, og man behøver ikke selv konstruere de regulære uttrykkene. Isteden klikker man seg gjennom et system med bokser og menyer.

Man har muligheten til å søke på ett, to eller tre ord - eller deler av ord (begynnelse eller slutt) - rett etter hverandre, eller med et selvvalgt antall ord mellom. Man kan bestemme at et eller flere av ordene er spesifisert mht grammatisk kategori (mer eller mindre spesifisert) og/eller teksttype. Videre kan man velge å unnlate å spesifisere selve ordstrengen, og heller bare velge grammatisk kategori.

Husk! For hvert nytt søk: Tøm skjemaet.

Eksempler på hovedtyper av søk

Enkeltord. Finn alle forekomster av jente: Skriv jente i feltet Første ord. Klikk på Søk i korpuset.

Prefikser. Finn alle ord som begynner med be-: Skriv be i feltet Første ord. Klikk i boksen Begynnelse av ord. Klikk på Søk i korpuset (eksempel: bena, bestemt).

Suffikser. Finn alle ord som slutter med -else: Skriv else i feltet Første ord. Klikk i boksen Endelse av ord. Klikk på Søk i korpuset (eksempel: forbauselse, forskrekkelse).

Sekvenser av ord. Finn alle sekvenser av ord som står rett ved siden av hverandre, hvor det første ender på -r og det andre begynner på be-: Skriv r i feltet Første ord, og klikk i boksen Endelse av ord, velg maks 0 ord mellom, skriv be i feltet Andre ord, og klikk i boksen Begynnelse av ord. Klikk på Søk i korpuset (eksempel: eller begynne, har bestemt).

Brutt sekvens - med andre ord mellom. Finn alle forekomster av ordet jeg fulgt av ordet og med opptil sju ord i mellom: Skriv jeg i Første ord, velg maks 7 ord mellom, og skriv og i Andre ord. Klikk på Søk i korpuset (eksempel: ...jeg var ute i samme ærend og ble glad...)

Begrens søket i forhold til teksttype. Finn alle forekomster av ord som begynner på be- i skjønnlitteratur: Skriv be i Første ord, klikk i Begynnelse av ord, klikk på Velg tekster, velg Alle i rullegardinmenyen for skjønnlitteratur og klikk på Ingen under rullegardinmenyene for aviser og sakprosa. Klikk på OK og så på Søk i korpuset (eksempel: bena, bestemt).

Begrens søket i forhold til grammatisk kategori. Finn alle forekomster av verb i presens som ikke er sammensetninger: Ikke skriv noe i feltene for Første ord, Andre ord eller Tredje ord. Velg Verb i rullegardinmenyen Grammatiske kategorier under Første ord, klikk på Morfosyntaktiske trekk og deretter på den venstre radioknappen for Presens i vinduet som åpner seg. Klikk på OK. Velg Annet i rullegardinmenyen Utelukk kategori(er) under Første ord og klikk på Sammensetning i vinduet som åpner seg. Klikk på OK og på Søk i korpuset (eksempel: puster, bestemmer, men ikke pustet, bestemt, massekopierer).

Eksempler på kombinasjoner av søkekriteriene over

Finn alle forekomster av ord som begynner på be- og er verb, i skjønnlitteratur: Skriv be i Første ord, klikk i Begynnelse av ord, velg Verb i rullegardinmenyen Grammatiske kategorier, klikk på Velg tekster, velg Alle i rullegardinmenyen for skjønnlitteratur og klikk på Ingen under rullegardinmenyene for aviser og sakprosa. Klikk på OK og på Søk i korpuset (eksempel: bestemt, begynner, men ikke bena, begynnelse).

Finn alle forekomster av ord som begynner på be- og er verb og presens, i skjønnlitteratur og sakprosa: Skriv be i Første ord, klikk i Begynnelse av ord, velg Verb i rullegardinmenyen Grammatiske kategorier, klikk på Morfosyntaktiske trekk og deretter på den venstre radioknappen for Presens i vinduet som åpner seg, klikk på Velg tekster, velg Alle i rullegardinmenyen for skjønnlitteratur, samt Alle i menyen for sakprosa, og klikk på Ingen under rullegardinmenyen for aviser. Klikk på OK og på Søk i korpuset (eksempel: bestemmer, begynner, men ikke bena, begynnelse, bestemt).

Finn alle forekomster av ord som begynner på be- og er verb og presens, i Aftenposten: Skriv be i Første ord, klikk i Begynnelse av ord, velg Verb i rullegardinmenyen Grammatiske kategorier, klikk på Morfosyntaktiske trekk og deretter på den venstre radioknappen for Presens i vinduet som åpner seg, klikk på Velg tekster, velg Aftenposten i rullegardinmenyen for aviser og klikk på Ingen under rullegardinmenyene for skjønnlitteratur og sakprosa. Klikk på OK og på Søk i korpuset (eksempel: bestemmer, begynner, men ikke bena, begynnelse, bestemt).

Finn alle forekomster av verb som ikke står i preteritum i Aftenposten: Ikke skriv noe i feltene for Første ord, Andre ord eller Tredje ord. Velg Verb i rullegardinmenyen Grammatiske kategorier under Første ord, klikk på Morfosyntaktiske trekk og på den høyre radioknappen for Preteritum i vinduet som åpner seg. Klikk på OK og på Velg tekster, velg Aftenposten i rullegardinmenyen for aviser og klikk på Ingen under rullegardinmenyene for skjønnlitteratur og sakprosa. Klikk på OK og på Søk i korpuset (eksempel: puster, bestemmer, men ikke pustet, bestemte).

Finn alle forekomster av verb fulgt av preposisjon, i skjønnlitteratur: Ikke skriv noe i feltene for Første ord, Andre ord eller Tredje ord. Velg Verb i rullegardinmenyen Grammatiske kategorier under Første ord og Preposisjon fra den tilsvarende menyen under Andre ord, klikk på Velg tekster, velg Alle i rullegardinmenyen for skjønnlitteratur og klikk på Ingen under rullegardinmenyene for aviser og sakprosa. Klikk på OK og på Søk i korpuset (eksempel: pustet ut, bestemmer for).

[Søk i korpuset] [Toppen av siden]

Innlogging

Korpuset er fritt tilgjengelig for forskning gjennom innlogging med Feide eller eduGAIN. (Kontakt Tekstlaboratoriet dersom du trenger et annet innloggingsalternativ.)

Teknisk informasjon

IMS Corpus Workbench

Dette er et grensesnitt mot CQP, Corpus Query Processor, som hører til IMS Corpus Workbench, utviklet av Oliver Christ og Bruno Maximilian Schulze ved Institut für Maschinelle Sprachverarbeitung, Universitetet i Stuttgart. Prøv gjerne ut deres liste over hyppige spørsmål.

Vi er svært glade for å ha fått lov til å bruke CQP-søkeverktøyet til forskningsformål.

De som kjenner CQP-grensesnittet, kan bruke det så godt som i sin helhet her. Noen restriksjoner vil bli beskrevet nedenfor.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]

Korpus-struktur og koding

Det er brukt tegnsett ISO-8859-1 i korpuset. Det er også laget en ren ASCII-versjon.

Korpuset er satt sammen av det elektroniske materialet for norsk som Tekstlaboratoriet hadde tilgjengelig pr. januar 1999. Mesteparten av dette materialet har vi overtatt i elektronisk form, enten direkte fra avis, forfatter eller forlag - eller via andre tekstinnsamlere som Humanistisk datasenter i Bergen (nå: HIT-senteret) og ECI (European Corpus Initiative). Vi har også lastet ned fra internett statlige informasjonsskriv (NOU-rapporter). Vi er svært takknemlige over å ha fått tillatelse fra aviser, forlag og forfattere til å benytte tekstene deres i dette første Oslo-korpuset. Vi har ikke gjort noen endringer i tekstene, bortsett fra at enkelte tall-tabeller som måtte finnes i enkelte tekster, er fjernet. Vi har beholdt overskrifter, billedtekster og annet som i utgangspunktet kans kje kunne vært et problem for taggeren. Isteden ble taggeren utviklet med tanke på også å takle en del slike teksttyper - i begrenset grad riktig nok.

Korpuset er tagget med UiOs multitagger (utviklet av Tekstlaboratoriet og Dokumentasjonsprosjektet i samarbeid), og deretter med vår disambiguerende tagger, utviklet ved Tekstlaboratoriet (med programvare fra Lingsoft, Finland). Korpuset er blitt gjort om til CQP-format automatisk, fra rene tekstfiler med meta-informasjon i headeren, og fra en innholdsfortegnelse med riktig tekstidentifikator.

Korpuset er ikke korrekturlest.

Til slutt gjør vi oppmerksom på noen punkter hvor vårt korpus avviker fra Corpus Workbench:

Korpuset er ikke delt opp på en måte som gjør det mulig å søke med formelle enheter som avsnitt og setninger.
Korpuset er annotert med kilde for hvert ord. Vi har ordnet det slik at kilden vises for hver linje i konkordansen.
Store og små bokstaver er kodet forskjellig.
Punktueringstegn er kodet som egne tegn, slik at man kan søke på f.eks. komma.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]

Informasjon om søkegrensesnittet

Det nåværende søkegrensesnittet gjør det mulig

å søke med klikking og skriving
å søke på CQP-måten med regulære uttrykk
å velge mellom Latin 1 eller lavere ASCII for visning av søkeresultatet
å velge hvor mye kontekst som skal vises i konkordansen
å velge et tilfeldig utplukket antall søketreff
å velge type søkeresultat (konkordans, distribusjon av former, av kilder eller annet, eller en kombinasjon av disse)
å velge konkordans uten tagger, med tagger bare på søkeordet eller med tagger på både søkeord og kontekst.
å sortere konkordansen etter kilde, søkeord eller ordet eller skilletegnet foran eller etter søkeordet.

Søkeresultatet vises sammen med en angivelse av hva slags søk som ble foretatt av brukeren, samt dato og antall søketreff.

I noen tilfeller blir det gitt advarsler eller hjelpemeldinger. For eksempel:

Ikke spør om distribusjon av former når søkeuttrykket bare tilsvarer én form.
Ikke bruk * isteden for .* (a* betyr et antall a'er, ikke a fulgt av noe annet: da burde man skrevet a.*)
Ikke bruk mellomrom inni et søkeuttrykk. Ønsker man to ord, må det brukes anførselstegn.

Viktige begrensninger

For å hindre brukerne i å laste ned hele tekster til sin maskin har vi lagt inn følgende begrensninger:

Man kan ikke søke med en kontekst som er større enn 500 tegn. Ber man om mer, blir det likevel kuttet ned til 500 tegn.
Man kan ikke søke på sekvenser som er lengre enn 200 ord (fra begynnelsen av søkeuttrykket til slutten). Prøver man med lengre uttrykk, blir de kuttet ned til 200.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]

Taggerens prestasjonsnivå

Vi har undersøkt den disambiguerende taggerens prestasjonsnivå på et testkorpus, det vil si et ukjent korpus for taggeren. Testkorpuset er manuelt tagget og inneholder ca 30 000 ord hentet fra aviser, ukeblader, tidsskrifter og offentlige utredninger. Resultatene viser (juni 2002) at taggeren har en leksikalsk funnrate på 99 %, dvs. at den beholder 99 % av de riktige taggene. Presisjonen er på 95,4 %, noe som betyr at 95,4 % av de taggene som blir stående igjen, er riktige.

Selv om disse tallene er høye, vil man likevel finne at når man søker etter ord med en bestemt ordklasse, finner systemet en del ord som ikke skulle ha denne ordklassen i den aktuelle konteksten. Hvis man f.eks. søker etter ordet springer som substantiv, vil systemet bl.a. finne det følgende uthevede ordet:

Da springer hun, springer til hun kjenner smaken av blod og gråt som salt i strupen.

I noen tilfeller betyr dette at taggeren har valgt feil ordklasse på ordet, men vanligvis betyr det at taggeren ikke har tatt sjansen på å fjerne den ukorrekte taggen, slik at ordet fortsatt er flertydig. Springer i setningen ovenfor er for eksempel fremdeles listet som både substantiv og verb i korpuset; dette ser man hvis man velger å få resultatet vist med tagger på søkeordet:

Da springer hun, springer
"spring" subst mask appell fl ub @OBJ @I-OBJ
"springe" verb pres <intrans1> <intrans2> @FV
"springer" subst mask appell ent ub @OBJ @I-OBJ
til hun kjenner smaken av blod og gråt som salt i strupen.

Ofte er det også slik at ordet er genuint flertydig syntaktisk sett, selv om vår kunnskap om ordenes betydning vanligvis gjør at vi som lesere bare oppfatter én av tolkningene. Se på følgende eksempel:

Må også du være med på den enkle leken som alle leker
"lek" subst mask appell fl ub @SUBJ @S-PRED @<P-UTFYLL
"leke" subst fem appell fl ub @SUBJ @S-PRED @<P-UTFYLL
"leke" subst mask appell fl ub @SUBJ @S-PRED @<P-UTFYLL
"leke" verb pres <intrans1> <trans1> @FV
når livet blir for vanskelig

Siden taggeren ikke har tilgang til semantisk/pragmatisk informasjon, har den ikke mulighet til å utelukke substantivtolkningene av leker her. Dette ser vi hvis vi sammenlikner denne setningen med en setning som Må du også være med på den enkle leken som alle barn når livet blir for vanskelig, der vi finner substantivet barn i nøyaktig samme kontekst som leker i setningen over.

Selv om vi har brukt den syntaktiko-semantiske informasjonen om verbenes argumentstruktur som vi har fått fra NorKompLeks-prosjektet ved NTNU, kan det oppstå syntaktisk flertydighet hvis denne informasjonen er mangelfull eller taggeren ikke klarer å gjøre god nok bruk av den. Hvis man f.eks. søker i korpuset etter døde som verb, vil man bl.a. få følgende resultat:

Men i dag skal vi begrave de døde
"dø" verb pret <intrans2> <trans5> @FV
"død" adj pos mask fem nøyt be ent @SUBJ @OBJ @S-PRED
"død" adj pos ub be fl @SUBJ @OBJ @S-PRED
"døde" subst appell ubøy @SUBJ @OBJ @S-PRED

Her kan det være vanskelig å se hvordan døde kan bli stående som mulig verb. Det som har skjedd, er at taggeren ikke har tatt sjansen på å utelukke at begrave kan være et verb som tar at-setning som objekt, og at vi har et underforstått at mellom begrave og de. Hvis dette var tilfelle, ville setningen kunne ha samme struktur som Men i dag skal vi si (at) de døde, der døde jo faktisk er et verb.

Hvis man undersøker de feilene taggeren gjør og bestreber seg på å finne andre analyser enn de mest iøynefallende, vil man se at genuin syntaktisk flertydighet er langt mer utbredt enn man skulle tro. Det virker derfor vanskelig å få økt taggerens presisjon (evne til å fjerne uriktige tagger) ytterligere uten å inkludere semantisk (ev. også pragmatisk) informasjon om ordene i leksikonet.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]

Publikasjoner

Publikasjoner hvor korpuset er brukt

Helle Asmussen. 2000. Korpus 2000 - En undersøgelse af brugergrupper og korpusværktøjer. Prosjektoppgave, Institut for Datalingvistik, Handelshøjskolen i København. (HTML, Postscript)
Philipp Conzett. 2004. Fr� einskap til ulikskap? Ei gransking av genustilh�vet ved avleiingar p� -skap i skandinavisk. Norsk Lingvistisk Tidsskrift 22, s 169-193
Hanne Ragnhild Eliassen. 2002. Frekvens og norske verb. Hvordan kan verb klassifiseres, og hvordan påvirker frekvens verbene? Hovedoppgave, Universitetet i Oslo.
Elisabet Engdahl. 1999. Valet av passivform i modern svenska. Foredrag holdt ved Svenskans beskrivning 24 i Linköping.
Elisabet Engdahl. 1999. The choice between bli-passive and s-passive in Danish, Norwegian and Swedish. NORDSEM-rapport nr. 3. (Postscript)
Martin Hilpert. 2002. Semantik und Syntax von Verben der Meinungsäusserung im Dänischen, Norwegischen und Schwedischen. Eine kompararative, korpusbasierte Fallstudie. Universität Hamburg.
Janne Bondi Johannessen. 1998. Negasjonen ikke: Kategori og syntaktisk posisjon. MONS 7. Utvalde artiklar frå det 7. Møtet om Norsk Språk i Trondheim 1997. ISBN 82-7099-307-7
Julien, Marit. 2007. Embedded V2 in Norwegian and Swedish. Working Papers in Scandinavian Syntax 80, 103�161.
Julien, Marit. 2008. S� vanleg at det kan ikkje avfeiast: om V2 i innf�ydde setningar. I Janne Bondi Johannessen & Kristin Hagen (eds.) Spr�k i Oslo. Ny forskning omkring talespr�k, s. 159�171. Novus forlag, Oslo.
Fredrik Andersen Kavli. 2001. Korpusargumenter. Hovedoppgave, Universitetet i Bergen. (HTML)
Arild Lian, Paul J. Karlsen og Bendik Winswold. 2001. A re-evaluation of the phonological similarity effect in adults' short-term-memory of words and nonwords. Memory, 9 (4,5,6), 281-299.
Arne Martinus Lindstad. 1999. Issues in the Syntax of Negation and Polarity in Norwegian. A Minimalist Analysis. Hovedoppgave, Universitetet i Oslo.
Victoria Rosén, 2000. Er norsk et naturlig språk? I: Øivin Andersen, Kjersti Fløttum og Torodd Kinn (red.), Menneske, språk og fellesskap. Festskrift til Kirsti Koch Christensen på 60-årsdagen, 1. desember 2000, Oslo, Novus forlag.
Grete Seland, 2001. The Norwegian Reflexive Caused Motion Construction. A Construction Grammar Approach. Hovedoppgave, Universitetet i Oslo.
Henrik Stiansen, 2001. Indirekte objekt i norsk. Hovedoppgave, Universitetet i Oslo
Martin Thiering, 2004. A Corpus-Based Semantic Analysis of Norwegian 'Se'. Foredrag på CSDL 2004 (Conference on Conceptual Structure, Discourse, and Language), University of Alberta, Canada.
Ingebjørg Tonne, 2001. Progressives in Norwegian and the Theory of Aspectuality. Dr.art-avhandling, Universitetet i Oslo, Acta Humaniora, Unipub/Gnist-Akademika. (Postscript)
Øystein Alexander Vangsnes. 2001. Distributiv possessiv - en binominal konstruksjon. I Inger Moen (et al.), Mons 9: Utvalgte artikler fra Det niende møtet om norsk språk i Oslo 2001, 230-243. Oslo: Novus.
Eva Veenendaal. 2010. Setningskl�yving i norsk. En korpusbasert analyse. Masteroppgave, University of Amsterdam. PDF

Vi ser gjerne at forskere som har brukt korpuset i foredrag eller skriftlige arbeider, forteller oss om det. Vi vil gjerne utvide denne lista over slike arbeider, til nytte og glede for oss alle.

Om tagging

Vitenskapelige tidsskrifter og antologier:

Kristin Hagen, Janne Bondi Johannessen og Anders Nøklestad. 2000. A Web-Based Advanced and User Friendly System: The Oslo Corpus of Tagged Norwegian Texts. I Gavrilidou, M., G. Carayannis, S. Markantonatou, S. Piperidis og G. Stainhaouer (red.): Proceedings of the Second International Conference on Language Resources and Evaluation, Athens, Greece 31 May - 2 June 2000.
Kristin Hagen, Janne Bondi Johannessen og Anders Nøklestad. 2000. A Constraint- Based Tagger for Norwegian. I Lindberg, C.-E. og S. Nordahl Lund (red.): 17th Scandinavian Conference of Linguistics, vol. I. Odense: Odense Working Papers in Language and Communication, No. 19, vol I.
Kristin Hagen, Janne Bondi Johannessen og Anders Nøklestad. 2000. The shortcomings of a tagger. I Proceedings from the 12th "Nordiske datalingvistikkdager", Trondheim 9-10 December, 1999. Trondheim: Lingvistisk institutt, NTNU .
Janne Bondi Johannessen. 1998. Tagging and the case of pronouns. Computers and the Humanities. ISSN 0010-4817
Janne Bondi Johannessen. 1998. Elektroniske hjelpemidler - leksikografisk fornying. Norskrift. ISSN 0800.7764
Kristin Hagen og Janne Bondi Johannessen. 1998. Disambiguering uten syntaks. MONS 7. Utvalde artiklar frå det 7. Møtet om Norsk Språk i Trondheim 1997. ISBN 82-7099-307-7
Anders Nøklestad. 1998. Statistisk disambiguerende tagging av norsk. MONS 7. Utvalde artiklar frå det 7. Møtet om Norsk Språk i Trondheim 1997. ISBN 82- 7099-307-7
Janne Bondi Johannessen og Helge Hauglin.1998. An Automatic Analysis of Norwegian Compounds. Papers from the 16th Scandinavian Conference of Linguistics, Turku/Åbo, Finland. ISBN 951-29-1327-5.

Upublisert:

Kristin Hagen, Janne Bondi Johannessen og Kristian Emil Kristoffersen. 1997. Problemer ved bruk av andres lister til taggerformål. Foredrag presentert på Møter om norsk språk 7, Universitetet i Trondheim.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]

Versjon

Dette er versjon 2 av korpuset, tagget med versjon 2 av multitaggeren, og versjon 2 av den disambiguerende taggeren.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]

Planlagte forbedringer

Vi har planlagt noen forbedringer som vi håper vil komme i løpet av nokså kort tid. Noen av dem vil vi foreta fortløpende, andre vil vi introdusere samtidig med innføring av neste versjon av Oslo-korpuset.

Kollokasjon. Vi kommer til å tilby å få vist søkeordets kollokasjoner.
Frekvenslister. Vi vil utvide frekvenslistene til å gjelde alle teksttypene.
Tilfeldig utvalg med relativ tekstfrekvens. Vi vil tilby muligheten til å søke etter et bestemt, tilfeldig utvalg forekomster av et søkeuttrykk, hvor like mange forekomster hentes fra hver av de ulike teksttypene.
Fjerne artikler osv. på feil målform. Vi vil i større grad enn nå sørge for å skille ut lengre nynorsktekster som avisartikler o.l. fra bokmålsmaterialet og omvendt.
Layout på klikk-og-skriv-sidene. Denne vil kontinuerlig evalueres og forbedres.

Vi ønsker alltid å kunne forbedre Oslo-korpuset. Derfor setter vi pris på alle forslag til forbedringer, enten til tekstlab-post@iln.uio.no, eller til korpus-diskusjonslista, oktnt-list@iln.uio.no. Vi vil gjerne takke Stig Johansson, Elisabet Engdahl, Johan Laurits Tønnesson og Carl Vikner for deres konstruktive forslag.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av siden]

Kontakt oss.

Opprettet av Janne Bondi Johannessen.
Oppdatert 7. mai 2007 av AN.