Tekstlaboratoriet

Nye korpus

Tekstlaboratoriet har den siste tiden ferdigstilt flere korpus, alene eller i samarbeid med andre. Nedenfor er korpusene listet opp alfabetisk med en kort omtale.

Tilgang til korpusene
Korpusene er åpne for forskning. Gå inn på tilgangssiden for å finne ut hvordan du skal få tilgang til hvert enkelt korpus. NoWaC-korpuset kan brukes uten passord.

Nordisk dialektkorpus og database
Inneholder intervjuer og samtaler med informanter fra Danmark, Færøyene, Island, Norge og Sverige. Talemålsmaterialet er transkribert og koplet til lyd og video. Det er også bygget opp en søkbar database med setninger som er vurdert og gitt en score av informanter fra Norge, Danmark og Sverige. Les mer om Nordisk dialektkorpus og database et annet sted i denne bulletinen.

NoWaC-korpuset
NoWaC-korpuset (Norwegian Web as Corpus) inneholder ca 700 millioner ord. Det er bygget automatisk ved å gå igjennom alle dokumenter på .no-domenet på Internett, laste dem ned og bearbeide dem. Det er Tekstlaboratoriets stipendiat Emiliano Guevara som har laget korpuset. Korpuset er åpent for søk uten passord.
Les mer om korpuset
Søk i korpuset

RuN-korpuset
RuN-korpuset er et parallellkorpus med norske, russiske og engelske tekster. Tekstene er parallellstilt på setningsnivå og er tagget med grammatisk informasjon på ordnivå. Les mer på prosjektets hjemmeside. Prosjektet er ledet av Atle Grønn, ILOS.

Ruija-korpuset
Ruija-korpuset inneholder talemål fra kvensk- og finskspråklige områder med opptak fra tidsrommet 1960 til 2009. Datamaterialet kommer fra to prosjekt, begge ledet av Pia Lane ved Institutt for lingvistiske og nordiske studier. Les mer om Ruija-korpuset. og om lanseringen av korpuset 8. april.

KH