English

Oslo-korpuset av tagga norske tekstar (nynorskdelen)

Nynorskdelen av Oslo-korpuset inneheld omtrent 3,8 millionar ord, som er koda i forhold til standarden til IMS Corpus Workbench, Institut für Maschinelle Sprachverarbeitung, ved Universitetet i Stuttgart. Grensesnittet er utvikla ved Tekstlaboratoriet.

Oversikt over tekstane i korpuset
- Oversikt over grammatiske taggar
- Oversikt over kjeldereferansar
Typar av moglege søk
Innlogging
Teknisk informasjon
Frekvensordlister
Publikasjonar
Versjon
Planlagte forbetringar
Oversikt over brukarane av korpuset
Kontaktside

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Heimesida til Tekstlaboratoriet] [Bokmålskorpuset]

Oversikt over tekstane i korpuset

Korpuset er sett saman av dei tekstane som Tekstlaboratoriet har hatt tilgjengelege pr januar 1999. Korpuset består av 3,7 millionar ord, og omfattar tre genrar: skjønnlitteratur (2,1 mill. ord), avis/ukeblad (1 mill. ord) og sakprosa (600 000 ord). Skjønnlitteraturen er henta frå Dokumentasjonsprosjektet og frå Norsk Tekstarkiv, Bergen (no: HIT-senteret). Avis- og ukebladtekstane er samla inn av Tekstlaboratoriet med velvillig løyve frå dei ulike redaksjonane. Sakprosatekstane består av NOU-rapportar, norske lover og forskrifter og fire årgangar av Syn og Segn. Ei detaljert oversikt over dei ulike tekstane, inkludert kjeldereferansekode og tekststorleik, finst her.

Korpuset er ikkje meint å vere representativt i nokon forstand, sjølv om det inneheld tekstar frå til dels ulike genrar. Hovudformålet med det er å tilby ei stor tekstmengd som forskarane kan bruke til søking. Men sidan søkjegrensesnittet gjer det mogleg å søkje etter bestemte kjelder, kan korpuset i praksis verke som eit meir skreddarsydd korpus - ein kan velje seg ut alle avistekstane eller alle skjønnlitteraturtekstane eller alle sakprosatekstane, eller einskildtekstar, eller ein kombinasjon av dei. (Sjå òg ENPC.)

Korpusprosjektet, som inkluderer innsamling av tekstar, grammatisk tagging, kjeldekoding, IMS-koding, og utvikling av web-grensesnitt, har vore leidd av Janne Bondi Johannessen. Diana Santos utvikla det opphavlege web-grensesnittet for regulære uttrykk (for The Oslo Corpus of Bosnian Texts), medan Sigurd Schiøth og Anders Nøklestad har videreutvikla web-grensesnittet slik at ein kan søkje vha klikking i boksar. Tore Bjertnes Pedersen og Anders Nøklestad har utarbeidd kjeldereferansar etter mønster av tilsvarande arbeid gjort ved Seksjon for leksikografi og målføregransking. Den grammatiske tagginga har hovudsakleg vore gjort av Kristin Hagen (morfologisk del) og Anders Nøklestad (syntaktisk del) (men sjå her for ei full oversikt over involverte personar). Delar av taggaren (nærare bestemt multitaggingsdelen) har blitt utvikla i samarbeid med Dokumentasjonsprosjektet (leidd av Christian-Emil Ore), og programmeringa har blitt utført av Lars-Jørgen Tvedt, og delvis av Helge Hauglin.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]

Oversikt over grammatiske taggar

Bak den grammatiske tagginga ligg det svært mykje arbeid. Til saman seks årsverk, hovudsakleg finansiert av Noregs forskingsråd, Dokumentasjonsprosjektet og Tekstlaboratoriet, har gått med til å utvikle sjølve taggaren. Programvare frå Lingsoft, Finland, har vore brukt i arbeidet. Denne krev ein dependenstypegrammatikk (Constraint Grammar). Dei grammatiske taggane er søkbare i web-grensesnittet.

Morfologiske taggar

Dei morfologiske taggane er eigentleg morfosyntaktiske taggar. Dei viser til ordklasse og alle dei vanlegaste kategoriane med trekk, slik som genus (maskulin, feminin, nøytrum), tal (eintal, fleirtal), bunden/ubunden form, tempus (preteritum, presens), for å nemne nokre få. Ei full oversikt finst her. Det er i størst mogleg grad gjort vinn på å følgje Norsk Referansegrammatikk når det gjeld val av ordklasse og trekk. Det har ført til t.d. at alle tidlegare stadadverb no er preposisjonar.

Syntaktiske taggar

Dei syntaktiske taggane viser til vanlege syntaktiske funksjonar som subjekt og objekt. Alle syntaktiske taggar har ein krøllalfa (@) føre seg. Sidan grammatikken er av dependenstypen, der ein for kvart ord spesifiserer om det er kjerne eller utfylling, kjem det i tillegg mange meir uortodokse taggar, t.d. : @<SBU (SUBJUNKSJON som modifiserer eitkvart til venstre), @DET> (DETERMINATIV som modifiserer eitkvart til høgre), @KON (KONJUNKSJON). Om det er ei pil på den syntaktiske taggen, tyder det at dette ordet er ei utfylling som modifiserer ein kjerne som står i den retninga pila viser. Ei full oversikt finst her.

Oversikt over kjeldereferansar

Kjeldereferansane er utvikla etter mønster av arbeid gjort ved Seksjon for leksikografi, UiO. Eit døme er:

Allbjart, Gunnar 'Flukten til livet' flukt.syn SK/AlGu/01

Kjeldereferansen er koden på slutten av linja. SK står for skjønnlitteratur (AV=avis/ukeblad og SA=sakprosa finst òg), dei fire bokstavane i midtfeltet viser til forfattar (eventuelt avis med årstal), og det siste talet syner ganske enkelt kva for ei fil det er, om vi har fleire verk av same forfattar eller fleire filer frå same avis. Vi understrekar at ei fil ikkje tilsvarar noka naturleg mengd når det gjeld avisene, slik at t.d. AV/Af94/01 består av 26 nummer av Aftenposten 1994. Ei fullstendig oversikt finst her.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]

Typar av moglege søk

Vi tilbyr to forskjellige søkjemåtar, ein enkel og ein meir komplisert, som begge tillèt svært komplekse søk. Den enkle søkjemåten har vi kalla Klikk og skriv, fordi ein kan spesifisere all informasjon om søket vha klikking i boksar, eventuelt kan ein søkje etter bestemte ord eller delar av ord - då må ein sjølvsagt skrive dei. Den kompliserte måten er søking vha regulære uttrykk. Her må ein gi all informasjon om søket vha eit regulært uttrykksspråk. Det mest kompliserte ved denne sistnemnde måten er kan hende at ein må vite namnet på dei ulike taggane og teksttypane på førehand for å kunne nemne dei i søkjeuttrykket. Grensesnittet med regulære uttrykk blei først utvikla av Diana Santos for bosniskkorpuset til Tekstlaboratoriet. Klikk-og-skriv-grensesnittet blei videreutvikla frå dette av Sigurd Schiøth og Anders Nøklestad.

Ein kan be om å søkje på ord, delar av ord, grammatiske (morfologiske og syntaktiske) taggar og avgrensingar innanfor teksttype, og kombinere slike søk på eit utal av måtar. Ein kan be om ein KWIC-konkordans (KWIC, KeyWord In Context) eller be om distribusjon av resultata etter former eller kjelde. Ein kan samstundes få både konkordans og distribusjon. Ein kan òg be om at konkordansen skal vise taggane på søkjeordet og eventuelt på orda i konteksten.

Søking med regulære uttrykk

Denne typen søking er den mest fleksible, her er det knapt noka grense for kva kombinasjonar ein kan søkje etter. Ved sjølv å formulere regulære uttrykk kan ein oppnå nøyaktig det ein ønskjer.

Døme:

"jente" Alle førekomstar av ordet jente.
"interess.*" Alle ord som byrjar med bokstavane interess, t.d. interesserer, interessant.
".*dom" Alle ord som endar på bokstavane dom, f.eks. fridom, fattigdom.
".*r" "av.*" Alle sekvensar av to ord som står rett ved sida av kvarandre, der det første endar på -r og det andre byrjar på -av, t.d. eller avtale, har avslutta.
"eg" []{0,7} "og" Ordet eg følgt av ordet og med opptil sju ord mellom, t.d. ...eg var ute i same ærendet og blei glad...

Vidare kan ein nytte dei grammatiske taggane og kjeldereferansane som korpuset inneheld i søkinga:

[src="SK.*" & word="av.*"] Avgrensa til skjønnlitteratur: Alle førekomstar av ord som byrjar på av-, t.d. avgass, avtale.
[src="SK.*" & tag=".*verb.*" & word="av.*"] Avgrensa til skjønnlitteratur: Alle førekomstar av ord som byrjar på av- og er verb, t.d. avtale, avlutta, men ikkje avgass, aversjon.
[(src="SK.*" | src="SA.*") & tag=".*verb.*" & tag=".*pres.*" & word="av.*"] Avgrensa til skjønnlitteratur og sakprosa: Alle førekomstar av ord som byrjar på av- og er verb og presens, t.d. avtaler, avsluttar, men ikkje avgass, aversjon, avslutta.
[src="AV/Bb.*" & tag=".*verb.*" & tag=".*pres.*" & word="av.*"] Avgrensa til Bondebladet: Alle førekomstar av ord som byrjar på av- og er verb og presens, t.d. avtaler, avsluttar, men ikkje avgass, aversjon, avslutta.
[src="SK.*" & tag=".*verb.*"] Avgrensa til skjønnlitteratur: Alle førekomstar av verb, t.d. pusta, avtaler.
[src="SK.*" & tag=".*verb.*"] [tag=".*prep.*"] Avgrensa til skjønnlitteratur: Alle førekomster av verb, følgt av preposisjon, t.d. pusta ut, avtaler for.

Søking med klikk og skriv

Klikk-og-skriv er atskilleg enklare å bruke enn systemet med regulære uttrykk. Ein treng ikkje kjenne nokre av kodane til verken grammatiske taggar eller tekstkjelder, og ein treng ikkje sjølv konstruere dei regulære uttrykka. I staden klikkar ein seg gjennom eit system med boksar og menyar.

Ein har høve til å søkje på eitt, to eller tre ord - eller delar av ord (byrjing eller slutt) - rett etter kvarandre, eller med eit sjølvvalt tal på ord som kan stå mellom. Ein kan bestemme at eitt eller fleire av orda er spesifiserte m.o.t. grammatisk kategori (meir eller mindre spesifisert) og/eller teksttype. Vidare kan ein velje å la vere å spesifisere sjølve ordstrengen, og heller berre velje grammatisk kategori.

Hugs! For kvart nytt søk: Tøm skjemaet.

Døme på hovudtypar av søk

Einskildord. Finn alle førekomstar av jente: Skriv jente i feltet Første ord. Klikk på Søk i korpuset.

Prefiks. Finn alle ord som byrjar med av-: Skriv av i feltet Første ord. Klikk i boksen Byrjing av ord. Klikk på Søk i korpuset (døme: avgass, avtalt).

Suffiks. Finn alle ord som sluttar med -dom: Skriv dom i feltet Første ord. Klikk i boksen Ending av ord. Klikk på Søk i korpuset (døme: fridom, fattigdom).

Sekvensar av ord. Finn alle sekvensar av ord som står rett ved sida av kvarandre, der det første endar på -r og det andre byrjar på av-: Skriv r i feltet Første ord, og klikk i boksen Ending av ord, vel maks 0 ord mellom, skriv av i feltet Andre ord, og klikk i boksen Byrjing av ord. Klikk på Søk i korpuset (døme: eller avtale, har avslutta).

Broten sekvens - med andre ord mellom. Finn alle førekomstar av ordet eg følgt av ordet og med opptil sju ord i mellom: Skriv eg i Første ord, vel maks 7 ord mellom, og skriv og i Andre ord. Klikk på Søk i korpuset (døme: ...eg var ute i same ærendet og blei glad...)

Avgrens søket i forhold til teksttype. Finn alle førekomstar av ord som byrjar på av- i skjønnlitteratur: Skriv av i Første ord, klikk i Byrjing av ord, klikk på Vel tekstar, vel Alle i rullegardinmenyen for skjønnlitteratur og klikk på Ingen under rullegardinmenyane for aviser og sakprosa. Klikk på OK og så på Søk i korpuset (døme: avgass, avtalt).

Avgrens søket i forhold til grammatisk kategori. Finn alle førekomstar av verb i presens som ikkje er samansetningar: Ikkje skriv noko i felta for Første ord, Andre ord eller Tredje ord. Vel Verb i rullegardinmenyen Grammatiske kategoriar under Første ord, klikk på Morfosyntaktiske trekk og deretter på den venstre radioknappen for Presens i vindauget som opnar seg. Klikk på OK. Velg Anna i rullegardinmenyen Utelukk kategori(ar) under Første ord og klikk på Samansetning i vindauget som opnar seg. Klikk på OK og på Søk i korpuset (døme: pustar, avtaler, men ikkje pusta, avtalt, massekopierer).

Døme på kombinasjonar av søkjekriteria over

Finn alle førekomstar av ord som byrjar på av- og er verb, i skjønnlitteratur: Skriv av i Første ord, klikk i Byrjing av ord, vel Verb i rullegardinmenyen Grammatiske kategoriar, klikk på Vel tekstar, vel Alle i rullegardinmenyen for skjønnlitteratur og klikk på Ingen under rullegardinmenyane for aviser og sakprosa. Klikk på OK og på Søk i korpuset (døme: avtalt, avsluttar, men ikkje avgass, aversjon).

Finn alle førekomstar av ord som byrjar på av- og er verb og presens, i skjønnlitteratur og sakprosa: Skriv av i Første ord, klikk i Byrjing av ord, vel Verb i rullegardinmenyen Grammatiske kategoriar, klikk på Morfosyntaktiske trekk og deretter på den venstre radioknappen for Presens i vindauget som opnar seg, klikk på Vel tekstar, vel Alle i rullegardinmenyen for skjønnlitteratur og Alle i menyen for sakprosa, og klikk på Ingen under rullegardinmenyen for aviser. Klikk på OK og på Søk i korpuset (døme: avtaler, avsluttar, men ikkje avgass, aversjon, avtalt).

Finn alle førekomstar av ord som byrjar på av- og er verb og presens, i Bondebladet: Skriv av i Første ord, klikk i Byrjing av ord, vel Verb i rullegardinmenyen Grammatiske kategoriar, klikk på Morfosyntaktiske trekk og deretter på den venstre radioknappen for Presens i vindauget som opnar seg, klikk på Vel tekstar, vel Bondebladet i rullegardinmenyen for aviser og klikk på Ingen under rullegardinmenyane for skjønnlitteratur og sakprosa. Klikk på OK og på Søk i korpuset (døme: avtaler, avsluttar, men ikkje avgass, aversjon, avtalt).

Finn alle førekomstar av verb som ikkje står i preteritum i Bondebladet: Ikkje skriv noko i felta for Første ord, Andre ord eller Tredje ord. Vel Verb i rullegardinmenyen Grammatiske kategoriar under Første ord, klikk på Morfosyntaktiske trekk og på den høgre radioknappen for Preteritum i vindauget som opnar seg. Klikk på OK og på Vel tekstar, vel Bondebladet i rullegardinmenyen for aviser og klikk på Ingen under rullegardinmenyane for skjønnlitteratur og sakprosa. Klikk på OK og på Søk i korpuset (døme: pusta, avtaler).

Finn alle førekomstar av verb følgt av preposisjon, i skjønnlitteratur: Ikkje skriv noko i felta for Første ord, Andre ord eller Tredje ord. Vel Verb i rullegardinmenyen Grammatiske kategoriar under Første ord og Preposisjon frå den tilsvarande menyen under Andre ord, klikk på Vel tekster, vel Alle i rullegardinmenyen for skjønnlitteratur og klikk på Ingen under rullegardinmenyane for aviser og sakprosa. Klikk på OK og på Søk i korpuset (døme: pusta ut, avtaler for).

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]

Innlogging

Korpuset er fritt tilgjengeleg for forsking gjennom innlogging med Feide eller eduGAIN. (Kontakt Tekstlaboratoriet dersom du treng eit anna innloggingsalternativ.)

Teknisk informasjon

IMS Corpus Workbench

Dette er eit grensesnitt mot CQP, Corpus Query Processor, som høyrer til IMS Corpus Workbench, utvikla av Oliver Christ og Bruno Maximilian Schulze ved Institut für Maschinelle Sprachverarbeitung, Universitetet i Stuttgart. Prøv gjerne ut lista deira over hyppige spørsmål.

Vi er svært glade for å ha fått lov til å bruke CQP-søkjeverktyet til forskingsføremål.

Dei som kjenner CQP-grensesnittet, kan bruke så godt som heile grensesnittet her. Nokre restriksjonar vil bli omtala nedanfor.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]

Korpus-struktur og koding

Det er brukt tegnsett ISO-8859-1 i korpuset. Det er òg laga ein rein ASCII-versjon.

Korpuset er sett saman av det elektroniske materialet for norsk som Tekstlaboratoriet hadde tilgjengeleg pr. januar 1999. Mesteparten av dette materialet har vi overteke i elektronisk form, anten direkte frå avis, forfattar eller forlag - eller via andre tekstinnsamlarar som Humanistisk datasenter i Bergen (no: HIT-senteret) og Dokumentasjonsprosjektet. Vi har òg lasta ned frå internett statlege informasjonsskriv (NOU-rapportar). Vi er svært takksame over å ha fått løyve frå aviser, forlag og forfattarar til å nytte tekstane deira i dette første Oslo-korpuset. Vi har ikkje gjort endringar i tekstane, bortsett frå at enkelte tall-tabellar som måtte finnast i enkelte tekstar, er fjerna. Vi har halde på overskrifter, bilettekstar og anna som i utgangspunktet kanskje kunne ha vore eit problem for taggaren. I staden blei taggaren utvikla med tanke på òg å takle ein del slike teksttypar - riktig nok i avgrensa grad.

Korpuset er tagga med UiOs multitaggar (utvikla av Tekstlaboratoriet og Dokumentasjonsprosjektet i samarbeid), og deretter med den disambiguerande taggaren vår, utvikla ved Tekstlaboratoriet (med programvare frå Lingsoft, Finland). Korpuset er blitt gjort om til CQP-format automatisk, frå reine tekstfiler med meta-informasjon i headeren, og frå ei innhaldsoversikt med riktig tekstidentifikator.

Korpuset er ikkje korrekturlese.

Til slutt gjer vi merksam på nokre punkter der korpuset vårt skil seg frå Corpus Workbench:

Korpuset er ikkje delt opp på ein måte som gjer det mogleg å søkje med formelle einingar som avsnitt og setningar.
Korpuset er annotert med kjelde for kvart ord. Vi har ordna det slik at kjelda står først i kvar line i konkordansen.
Store og små bokstavar er koda forskjellig.
Punktueringsteikn er koda som eigne teikn, slik at ein kan søkje på t.d. komma.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]

Informasjon om søkjegrensesnittet

Det noverande søkjegrensesnittet gjer det mogleg

å søkje med klikking og skriving
å søkje på CQP-måten med regulære uttrykk
å velje mellom Latin 1 eller lågare ASCII for vising av søkjeresultatet
å velje kor mykje kontekst som skal bli vist i konkordansen
å velje eit tilfeldig utplukka tal på søkjetreff
å velje type søkjeresultat (konkordans, distribusjon av former, av kjelder eller anna, eller ein kombinasjon av desse)
å velje konkordans utan taggar, med taggar berre på søkjeordet eller med taggar på både søkjeordet og konteksten.
å sortere konkordansen etter kjelde, søkjeord eller ordet eller skiljeteiknet føre eller etter søkjeordet.

Søkjeresultatet blir vist saman med informasjon om kva slags søk brukaren utførte, dato og talet på søkjetreff.

I nokre tilfelle blir det gitt åtvaringar eller hjelpemeldingar. Til dømes:

Ikkje spør om distribusjon av former når søkjeuttrykket berre tilsvarar éin form.
Ikkje bruk * i staden for .* (a* tyder ei rekkje a'ar, ikkje a følgt av noko anna: då burde ein ha skrive a.*)
Ikkje bruk mellomrom inni eit søkjeuttrykk. Ønskjer ein to ord, må ein bruke hermeteikn.

Viktige avgrensingar

For å hindre brukarane i å laste ned heile tekstar til maskina si har vi lagt inn desse avgrensingane:

Ein kan ikkje søkje med ein kontekst som er større enn 500 teikn. Ber ein om meir, blir det likevel kutta ned til 500 teikn.
Ein kan ikkje søkje på sekvensar som er lengre enn 200 ord (frå byrjinga av søkjeuttrykket til slutten). Prøver ein med lengre uttrykk, blir dei kutta ned til 200.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]

Prestasjonsnivået til taggaren

Vi har undersøkt prestasjonsnivået til den disambiguerande taggaren på eit testkorpus, det vil seie eit ukjent korpus for taggaren. Testkorpuset er manuelt tagga og inneheld ca 30 000 ord henta frå aviser, ukeblad, tidsskrift og offentlege utredningar. Resultata viser (juni 2002) at taggaren har ei leksikalsk funnrate på 98,7 %, dvs. at taggaren beheld 99 % av dei riktige taggane. Presisjonen er på 93,6 %, noko som tyder at 93,6 % av dei taggane som blir ståande igjen, er riktige.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk [Toppen av sida]

Publikasjonar

Nokre publikasjonar der korpuset er brukt

Helle Asmussen. 2000. Korpus 2000 - En undersøgelse af brugergrupper og korpusværktøjer. Prosjektoppgave, Institut for Datalingvistik, Handelshøjskolen i København. (HTML, Postscript)
Philipp Conzett. 2004. Frå einskap til ulikskap? Ei gransking av genustilhøvet ved avleiingar på -skap i skandinavisk. Norsk lingvistisk tidsskrift, 22, 169-193.
Hanne Ragnhild Eliassen. 2002. Frekvens og norske verb. Hvordan kan verb klassifiseres, og hvordan påvirker frekvens verbene? Hovudoppgåve, Universitetet i Oslo.
Elisabet Engdahl. 1999. Valet av passivform i modern svenska. Føredrag halde ved Svenskans beskrivning 24 i Linköping.
Elisabet Engdahl. 1999. The choice between bli-passive and s-passive in Danish, Norwegian and Swedish. NORDSEM-rapport nr. 3. (Postscript)
Martin Hilpert. 2002. Semantik und Syntax von Verben der Meinungsäusserung im Dänischen, Norwegischen und Schwedischen. Eine kompararative, korpusbasierte Fallstudie. Universität Hamburg.
Janne Bondi Johannessen. 1998. Negasjonen ikke: Kategori og syntaktisk posisjon. MONS 7. Utvalde artiklar frå det 7. Møtet om Norsk Språk i Trondheim 1997. ISBN 82-7099-307-7
Janne Bondi Johannessen. 2003. På språkjakt - problemer og utfordringer i språkvitenskapelig datainnsamling. Oslo.
Fredrik Andersen Kavli. 2001. Korpusargumenter. Hovudoppgåve, Universitetet i Bergen. (HTML)
Arild Lian, Paul J. Karlsen og Bendik Winswold. 2001. A re-evaluation of the phonological similarity effect in adults' short-term-memory of words and nonwords. Memory, 9 (4,5,6), 281-299.
Arne Martinus Lindstad. 1999. Issues in the Syntax of Negation and Polarity in Norwegian. A Minimalist Analysis. Hovudoppgåve, Universitetet i Oslo.
Victoria Rosén, 2000. Er norsk et naturlig språk? I: Øivin Andersen, Kjersti Fløttum og Torodd Kinn (red.), Menneske, språk og fellesskap. Festskrift til Kirsti Koch Christensen på 60-årsdagen, 1. desember 2000, Oslo, Novus forlag.
Grete Seland, 2001. The Norwegian Reflexive Caused Motion Construction. A Construction Grammar Approach. Hovudoppgåve, Universitetet i Oslo.
Henrik Stiansen, 2001. Indirekte objekt i norsk. Hovudoppgåve, Universitetet i Oslo
Martin Thiering, 2004. A Corpus-Based Semantic Analysis of Norwegian 'Se'. Foredrag på CSDL 2004 (Conference on Conceptual Structure, Discourse, and Language), University of Alberta, Canada.
Ingebjørg Tonne, 2001. Progressives in Norwegian and the Theory of Aspectuality. Dr.art-avhandling, Universitetet i Oslo, Acta Humaniora, Unipub/Gnist-Akademika. (Postscript)
Øystein Alexander Vangsnes. 2001. Distributiv possessiv - en binominal konstruksjon. I Inger Moen (et al.), Mons 9: Utvalgte artikler fra Det niende møtet om norsk språk i Oslo 2001, 230-243. Oslo: Novus.

Vi ser gjerne at forskarar som har brukt korpuset i føredrag eller skriftlege arbeid, fortel oss om det. Vi vil gjerne utvide denne lista over slike arbeid, til nytte og glede for oss alle.

Om tagging

Vitskaplege tidsskrift og antologiar:

Kristin Hagen, Janne Bondi Johannessen og Anders Nøklestad. 2000. A Web-Based Advanced and User Friendly System: The Oslo Corpus of Tagged Norwegian Texts. I Gavrilidou, M., G. Carayannis, S. Markantonatou, S. Piperidis og G. Stainhaouer (red.): Proceedings of the Second International Conference on Language Resources and Evaluation, Athens, Greece 31 May - 2 June 2000.
Kristin Hagen, Janne Bondi Johannessen og Anders Nøklestad. 2000. A Constraint- Based Tagger for Norwegian. I Lindberg, C.-E. og S. Nordahl Lund (red.): 17th Scandinavian Conference of Linguistics, vol. I. Odense: Odense Working Papers in Language and Communication, No. 19, vol I.
Kristin Hagen, Janne Bondi Johannessen og Anders Nøklestad. 2000. The shortcomings of a tagger. I Proceedings from the 12th "Nordiske datalingvistikkdager", Trondheim 9-10 December, 1999. Trondheim: Lingvistisk institutt, NTNU .
Janne Bondi Johannessen. 1998. Tagging and the case of pronouns. Computers and the Humanities. ISSN 0010-4817
Janne Bondi Johannessen. 1998. Elektroniske hjelpemidler - leksikografisk fornying. Norskrift. ISSN 0800.7764
Kristin Hagen og Janne Bondi Johannessen. 1998. Disambiguering uten syntaks. MONS 7. Utvalde artiklar frå det 7. Møtet om Norsk Språk i Trondheim 1997. ISBN 82-7099-307-7
Anders Nøklestad. 1998. Statistisk disambiguerende tagging av norsk. MONS 7. Utvalde artiklar frå det 7. Møtet om Norsk Språk i Trondheim 1997. ISBN 82- 7099-307-7
Janne Bondi Johannessen og Helge Hauglin.1998. An Automatic Analysis of Norwegian Compounds. Papers from the 16th Scandinavian Conference of Linguistics, Turku/Åbo, Finland. ISBN 951-29-1327-5.

Upublisert:

Kristin Hagen, Janne Bondi Johannessen og Kristian Emil Kristoffersen. 1997. Problemer ved bruk av andres lister til taggerformål. Føredrag presentert på Møte om norsk språk 7, Universitetet i Trondheim.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]

Versjon

Dette er versjon 2 av korpuset, tagga med versjon 2 av multitaggaren, og versjon 2 av den disambiguerande taggaren.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]

Planlagte forbetringar

Vi har planlagt nokre forbetringar som vi vonar vil kome i løpet av nokså kort tid. Nokre av dei vil vi gjennomføre etter kvart som vi blir ferdige med dei, andre vil vi introdusere samstundes med innføringa av neste versjon av Oslo-korpuset.

Kollokasjon. Vi kjem til å tilby å få vist kollokasjonane til søkjeordet.
Frekvenslister. Vi vil utvide frekvenslistene til å gjelde alle teksttypane.
Tilfeldig utval med relativ tekstfrekvens. Vi vil tilby høve til å søkje etter eit bestemt, tilfeldig utval førekomstar av eit søkjeuttrykk, der like mange førekomstar blir henta frå kvar av dei ulike teksttypane.
Fjerne artiklar osb. på feil målform. Vi vil i større grad enn no sørgje for å skilje ut lengre nynorsktekstar som avisartiklar o.l. frå bokmålsmaterialet og omvendt.
Layout på klikk-og-skriv-sidene. Denne vil vi kontinuerleg evaluere og forbetre.

Vi ønskjer alltid å kunne forbetre Oslo-korpuset. Difor set vi pris på alle forslag til forbetringar, anten til tekstlab-post@iln.uio.no, eller til korpus-diskusjonslista, oktnt-list@iln.uio.no. Vi vil gjerne takke Stig Johansson, Elisabet Engdahl, Johan Laurits Tønnesson og Carl Vikner for deira konstruktive forslag.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]

Kontakt oss.

Oppretta av Janne Bondi Johannessen.
Oppdatert 7. mai 2007 av AN.