Tekstlab heimeside

UiO heimeside English      

Oslo-korpuset av tagga norske tekstar (nynorskdelen)

Nynorskdelen av Oslo-korpuset inneheld omtrent 3,8 millionar ord, som er koda i forhold til standarden til IMS Corpus Workbench, Institut für Maschinelle Sprachverarbeitung, ved Universitetet i Stuttgart. Grensesnittet er utvikla ved Tekstlaboratoriet.

  1. Oversikt over tekstane i korpuset
  2. Typar av moglege søk
  3. Korleis få løyve til å bruke korpuset
  4. Teknisk informasjon
  5. Frekvensordlister
  6. Publikasjonar
  7. Versjon
  8. Planlagte forbetringar
  9. Oversikt over brukarane av korpuset
  10. Kontaktside
Konkordans med avisbakgrunn

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Heimesida til Tekstlaboratoriet] [Bokmålskorpuset] Tekstlab hjemmeside


Oversikt over tekstane i korpuset

Korpuset er sett saman av dei tekstane som Tekstlaboratoriet har hatt tilgjengelege pr januar 1999. Korpuset består av 3,7 millionar ord, og omfattar tre genrar: skjønnlitteratur (2,1 mill. ord), avis/ukeblad (1 mill. ord) og sakprosa (600 000 ord). Skjønnlitteraturen er henta frå Dokumentasjonsprosjektet og frå Norsk Tekstarkiv, Bergen (no: HIT-senteret). Avis- og ukebladtekstane er samla inn av Tekstlaboratoriet med velvillig løyve frå dei ulike redaksjonane. Sakprosatekstane består av NOU-rapportar, norske lover og forskrifter og fire årgangar av Syn og Segn. Ei detaljert oversikt over dei ulike tekstane, inkludert kjeldereferansekode og tekststorleik, finst her.

Korpuset er ikkje meint å vere representativt i nokon forstand, sjølv om det inneheld tekstar frå til dels ulike genrar. Hovudformålet med det er å tilby ei stor tekstmengd som forskarane kan bruke til søking. Men sidan søkjegrensesnittet gjer det mogleg å søkje etter bestemte kjelder, kan korpuset i praksis verke som eit meir skreddarsydd korpus - ein kan velje seg ut alle avistekstane eller alle skjønnlitteraturtekstane eller alle sakprosatekstane, eller einskildtekstar, eller ein kombinasjon av dei. (Sjå òg ENPC.)

Korpusprosjektet, som inkluderer innsamling av tekstar, grammatisk tagging, kjeldekoding, IMS-koding, og utvikling av web-grensesnitt, har vore leidd av Janne Bondi Johannessen. Diana Santos utvikla det opphavlege web-grensesnittet for regulære uttrykk (for The Oslo Corpus of Bosnian Texts), medan Sigurd Schiøth og Anders Nøklestad har videreutvikla web-grensesnittet slik at ein kan søkje vha klikking i boksar. Tore Bjertnes Pedersen og Anders Nøklestad har utarbeidd kjeldereferansar etter mønster av tilsvarande arbeid gjort ved Seksjon for leksikografi og målføregransking. Den grammatiske tagginga har hovudsakleg vore gjort av Kristin Hagen (morfologisk del) og Anders Nøklestad (syntaktisk del) (men sjå her for ei full oversikt over involverte personar). Delar av taggaren (nærare bestemt multitaggingsdelen) har blitt utvikla i samarbeid med Dokumentasjonsprosjektet (leidd av Christian-Emil Ore), og programmeringa har blitt utført av Lars-Jørgen Tvedt, og delvis av Helge Hauglin.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]


Oversikt over grammatiske taggar

Bak den grammatiske tagginga ligg det svært mykje arbeid. Til saman seks årsverk, hovudsakleg finansiert av Noregs forskingsråd, Dokumentasjonsprosjektet og Tekstlaboratoriet, har gått med til å utvikle sjølve taggaren. Programvare frå Lingsoft, Finland, har vore brukt i arbeidet. Denne krev ein dependenstypegrammatikk (Constraint Grammar). Dei grammatiske taggane er søkbare i web-grensesnittet.

Morfologiske taggar

Dei morfologiske taggane er eigentleg morfosyntaktiske taggar. Dei viser til ordklasse og alle dei vanlegaste kategoriane med trekk, slik som genus (maskulin, feminin, nøytrum), tal (eintal, fleirtal), bunden/ubunden form, tempus (preteritum, presens), for å nemne nokre få. Ei full oversikt finst her. Det er i størst mogleg grad gjort vinn på å følgje Norsk Referansegrammatikk når det gjeld val av ordklasse og trekk. Det har ført til t.d. at alle tidlegare stadadverb no er preposisjonar.

Syntaktiske taggar

Dei syntaktiske taggane viser til vanlege syntaktiske funksjonar som subjekt og objekt. Alle syntaktiske taggar har ein krøllalfa (@) føre seg. Sidan grammatikken er av dependenstypen, der ein for kvart ord spesifiserer om det er kjerne eller utfylling, kjem det i tillegg mange meir uortodokse taggar, t.d. : @<SBU (SUBJUNKSJON som modifiserer eitkvart til venstre), @DET> (DETERMINATIV som modifiserer eitkvart til høgre), @KON (KONJUNKSJON). Om det er ei pil på den syntaktiske taggen, tyder det at dette ordet er ei utfylling som modifiserer ein kjerne som står i den retninga pila viser. Ei full oversikt finst her.

Oversikt over kjeldereferansar

Kjeldereferansane er utvikla etter mønster av arbeid gjort ved Seksjon for leksikografi, UiO. Eit døme er:

Allbjart, Gunnar 'Flukten til livet' flukt.syn SK/AlGu/01

Kjeldereferansen er koden på slutten av linja. SK står for skjønnlitteratur (AV=avis/ukeblad og SA=sakprosa finst òg), dei fire bokstavane i midtfeltet viser til forfattar (eventuelt avis med årstal), og det siste talet syner ganske enkelt kva for ei fil det er, om vi har fleire verk av same forfattar eller fleire filer frå same avis. Vi understrekar at ei fil ikkje tilsvarar noka naturleg mengd når det gjeld avisene, slik at t.d. AV/Af94/01 består av 26 nummer av Aftenposten 1994. Ei fullstendig oversikt finst her.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]


Typar av moglege søk

Vi tilbyr to forskjellige søkjemåtar, ein enkel og ein meir komplisert, som begge tillèt svært komplekse søk. Den enkle søkjemåten har vi kalla Klikk og skriv, fordi ein kan spesifisere all informasjon om søket vha klikking i boksar, eventuelt kan ein søkje etter bestemte ord eller delar av ord - då må ein sjølvsagt skrive dei. Den kompliserte måten er søking vha regulære uttrykk. Her må ein gi all informasjon om søket vha eit regulært uttrykksspråk. Det mest kompliserte ved denne sistnemnde måten er kan hende at ein må vite namnet på dei ulike taggane og teksttypane på førehand for å kunne nemne dei i søkjeuttrykket. Grensesnittet med regulære uttrykk blei først utvikla av Diana Santos for bosniskkorpuset til Tekstlaboratoriet. Klikk-og-skriv-grensesnittet blei videreutvikla frå dette av Sigurd Schiøth og Anders Nøklestad.

Ein kan be om å søkje på ord, delar av ord, grammatiske (morfologiske og syntaktiske) taggar og avgrensingar innanfor teksttype, og kombinere slike søk på eit utal av måtar. Ein kan be om ein KWIC-konkordans (KWIC, KeyWord In Context) eller be om distribusjon av resultata etter former eller kjelde. Ein kan samstundes få både konkordans og distribusjon. Ein kan òg be om at konkordansen skal vise taggane på søkjeordet og eventuelt på orda i konteksten.

Søking med regulære uttrykk

Denne typen søking er den mest fleksible, her er det knapt noka grense for kva kombinasjonar ein kan søkje etter. Ved sjølv å formulere regulære uttrykk kan ein oppnå nøyaktig det ein ønskjer.

Døme:

Vidare kan ein nytte dei grammatiske taggane og kjeldereferansane som korpuset inneheld i søkinga:

Søking med klikk og skriv

Klikk-og-skriv er atskilleg enklare å bruke enn systemet med regulære uttrykk. Ein treng ikkje kjenne nokre av kodane til verken grammatiske taggar eller tekstkjelder, og ein treng ikkje sjølv konstruere dei regulære uttrykka. I staden klikkar ein seg gjennom eit system med boksar og menyar.

Ein har høve til å søkje på eitt, to eller tre ord - eller delar av ord (byrjing eller slutt) - rett etter kvarandre, eller med eit sjølvvalt tal på ord som kan stå mellom. Ein kan bestemme at eitt eller fleire av orda er spesifiserte m.o.t. grammatisk kategori (meir eller mindre spesifisert) og/eller teksttype. Vidare kan ein velje å la vere å spesifisere sjølve ordstrengen, og heller berre velje grammatisk kategori.

Hugs! For kvart nytt søk: Tøm skjemaet.

Døme på hovudtypar av søk

Døme på kombinasjonar av søkjekriteria over

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]


Teknisk informasjon

IMS Corpus Workbench

Dette er eit grensesnitt mot CQP, Corpus Query Processor, som høyrer til IMS Corpus Workbench, utvikla av Oliver Christ og Bruno Maximilian Schulze ved Institut für Maschinelle Sprachverarbeitung, Universitetet i Stuttgart. Prøv gjerne ut lista deira over hyppige spørsmål.

Vi er svært glade for å ha fått lov til å bruke CQP-søkjeverktyet til forskingsføremål.

Dei som kjenner CQP-grensesnittet, kan bruke så godt som heile grensesnittet her. Nokre restriksjonar vil bli omtala nedanfor.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]


Korpus-struktur og koding

Det er brukt tegnsett ISO-8859-1 i korpuset. Det er òg laga ein rein ASCII-versjon.

Korpuset er sett saman av det elektroniske materialet for norsk som Tekstlaboratoriet hadde tilgjengeleg pr. januar 1999. Mesteparten av dette materialet har vi overteke i elektronisk form, anten direkte frå avis, forfattar eller forlag - eller via andre tekstinnsamlarar som Humanistisk datasenter i Bergen (no: HIT-senteret) og Dokumentasjonsprosjektet. Vi har òg lasta ned frå internett statlege informasjonsskriv (NOU-rapportar). Vi er svært takksame over å ha fått løyve frå aviser, forlag og forfattarar til å nytte tekstane deira i dette første Oslo-korpuset. Vi har ikkje gjort endringar i tekstane, bortsett frå at enkelte tall-tabellar som måtte finnast i enkelte tekstar, er fjerna. Vi har halde på overskrifter, bilettekstar og anna som i utgangspunktet kanskje kunne ha vore eit problem for taggaren. I staden blei taggaren utvikla med tanke på òg å takle ein del slike teksttypar - riktig nok i avgrensa grad.

Korpuset er tagga med UiOs multitaggar (utvikla av Tekstlaboratoriet og Dokumentasjonsprosjektet i samarbeid), og deretter med den disambiguerande taggaren vår, utvikla ved Tekstlaboratoriet (med programvare frå Lingsoft, Finland). Korpuset er blitt gjort om til CQP-format automatisk, frå reine tekstfiler med meta-informasjon i headeren, og frå ei innhaldsoversikt med riktig tekstidentifikator.

Korpuset er ikkje korrekturlese.

Til slutt gjer vi merksam på nokre punkter der korpuset vårt skil seg frå Corpus Workbench:

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]


Informasjon om søkjegrensesnittet

Det noverande søkjegrensesnittet gjer det mogleg

Søkjeresultatet blir vist saman med informasjon om kva slags søk brukaren utførte, dato og talet på søkjetreff.

I nokre tilfelle blir det gitt åtvaringar eller hjelpemeldingar. Til dømes:

Viktige avgrensingar

For å hindre brukarane i å laste ned heile tekstar til maskina si har vi lagt inn desse avgrensingane:

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]


Prestasjonsnivået til taggaren

Vi har undersøkt prestasjonsnivået til den disambiguerande taggaren på eit testkorpus, det vil seie eit ukjent korpus for taggaren. Testkorpuset er manuelt tagga og inneheld ca 30 000 ord henta frå aviser, ukeblad, tidsskrift og offentlege utredningar. Resultata viser (juni 2002) at taggaren har ei leksikalsk funnrate på 98,7 %, dvs. at taggaren beheld 99 % av dei riktige taggane. Presisjonen er på 93,6 %, noko som tyder at 93,6 % av dei taggane som blir ståande igjen, er riktige.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk [Toppen av sida]


Publikasjonar

Nokre publikasjonar der korpuset er brukt

Vi ser gjerne at forskarar som har brukt korpuset i føredrag eller skriftlege arbeid, fortel oss om det. Vi vil gjerne utvide denne lista over slike arbeid, til nytte og glede for oss alle.

Om tagging

Vitskaplege tidsskrift og antologiar:

Upublisert:

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]


Versjon

Dette er versjon 2 av korpuset, tagga med versjon 2 av multitaggaren, og versjon 2 av den disambiguerande taggaren.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]


Planlagte forbetringar

Vi har planlagt nokre forbetringar som vi vonar vil kome i løpet av nokså kort tid. Nokre av dei vil vi gjennomføre etter kvart som vi blir ferdige med dei, andre vil vi introdusere samstundes med innføringa av neste versjon av Oslo-korpuset.

Vi ønskjer alltid å kunne forbetre Oslo-korpuset. Difor set vi pris på alle forslag til forbetringar, anten til tekstlab-post@iln.uio.no, eller til korpus-diskusjonslista, oktnt-list@iln.uio.no. Vi vil gjerne takke Stig Johansson, Elisabet Engdahl, Johan Laurits Tønnesson og Carl Vikner for deira konstruktive forslag.

[Søk i korpuset] [Søk i korpuset ved hjelp av regulære uttrykk] [Toppen av sida]


Kontakt oss.

Oppretta av Janne Bondi Johannessen.
Oppdatert 7. mai 2007 av AN.