Et verktøy for all verdens korpora: Glossa

Glossa er et nytt verktøy - utviklet ved Tekstlaboratoriet - for forskere som ønsker å søke i lingvistisk annoterte korpora via Internett.

Den store fordelen med nettbaserte verktøy er at den enkelte forskeren ikke trenger å ha annen programvare enn en vanlig nettleser installert, og trenger ikke forholde seg til de faktiske korpustekstene. Det har også den fordelen at det er enklere å samle inn tekster, fordi man kan love forfattere og forlagshus at de ikke blir distribuert videre annet enn som enkeltsetninger i søkeresultater.

Tekstlaboratoriet har lenge vært i forkant med å gjøre korpora tilgjengelig via nettet; mange kjenner nok Oslo-korpusets grensesnitt, som da det ble lansert var svært nyskapende.

Fra søkesiden til Glossa - her brukt i et enkelt enspråklig søk i OMC (Oslo Multilingual Corpus)

I dag begynner det imidlertid å vise sin alder, og et nytt grensesnitt har blitt utviklet. Vi hadde tre hovedmål under arbeidet med det nye grensesnittet:
- det skal være mer brukervennlig
- det skal gi nye muligheter: muliggjøre mer kompliserte søk, og flere valg for analyse av søkeresultater
- det skal være enkelt å tilpasse nye korpus, både flerspråklige korpora og talespråkskorpora med integrert lyd og video

Den viktigste endringen - som gjør det både enklere å bruke og mer fleksibelt - er at grensesnittet nå er "dynamisk". Det vil si at man skjuler en hel rekke bokser og knapper, fram til det faktisk er bruk for dem. Det gjør at man kan legge inn mange funksjoner uten at brukeren blir helt overveldet. Det gjør også at man ikke er begrenset til tre ord på rad (som i Oslo-korpuset), men man kan ha så mange ord man ønsker seg.

En rekke nye funksjoner for analyse av resultatene er også kommet med. Et eksempel på det er kollokasjons-analyse. Hvis man søker i et korpus på lemmaformen "hund", kan man i Glossa få opp statistikk over de ordene "hund" forekommer sammen med (jfr. bilde; "**" betyr her en form av "hund", altså "hund", "hunden" etc.). De finnes også en rekke andre funksjoner, blant annet for sortering, nedlasting redigering og lagring.

Det har også vært viktig for Tekstlaboratoriet å lage et grensesnitt som enkelt kan tilpasses nye korpora. Vi ser nå frem til å kunne hjelpe mange flere forskere enn tidligere, på grunn av det nye systemet. Vi er allerede i gang med å tilpasse det til korpora for norsk, engelsk, fransk, tysk, nederlandsk, portugisisk, makedonsk, nordsamisk, sidaama afu, svensk, dansk, færøyisk, islandsk.

Glossa er utviklet av språkingeniørene Lars Nygaard og Joel Priestley ved Tekstlaboratoriet.

Lars Nygaard

Glossa har mange resultatfunksjoner. Her statistikk over de ordene "hund" forekommer sammen med i LBK (Leksikografisk bokmålskorpus).

Et søkeresultat fra Samisk-korpuset til det Samiske språkteknologiprosjektet ved Universitetet i Tromsø.

 

Til bulletin-forside