SIMPLE-leksikonet

Av Ruth Vatvedt Fjeld,

leder for den norske delen av prosjektet

 

 

SIMPLE  står for Semantic Information for Multifunctional, Plurilingual Lexica. Det er et stort, internasjonalt prosjekt der man har laget et formalisert semantisk leksikon for 12 europeiske språk (dansk, engelsk, finsk, fransk, gresk, italiensk, katalansk, nederlandsk, portugisisk, spansk, svensk og tysk) i regi av EU. Det er viktig at norsk språk også kommer med i en slik leksikalsk base. Ved Seksjon for leksikografi og målføregransking ved Institutt for nordistikk og litteraturvitenskap har vi fått i stand en samarbeidsavtale med Center for Sprogteknologi i København som gir oss lov til å benytte det danske SIMPLE-leksikonet som utgangspunkt for å lage en norsk versjon. Det danske leksikonet er utarbeidet under ledelse av seniorforsker Bolette Sandford Pedersen. Dansk er valgt i stedet for svensk fordi det tross alt er best ekvivalens mellom dansk og norsk av de skandinaviske språkene.

 

Det teoretiske grunnlaget for SIMPLE er utarbeidet av en felleseuropeisk gruppe av språkforskere, med Alessandro Lenci ved Instituto di Linguistica Computazionale, Pisa, som leder. SIMPLE er egentlig en oppfølging og videreutvikling av PAROLE-leksikonet, i og med at det føyer en semantisk komponent til den morfologiske og syntaktiske beskrivelsen som er gjort av lemmaene der.

 

I utgangspunktet har SIMPLE-leksikonene ca. 10 000 ordbetydninger som er valgt ut etter korpusundersøkelser samt ut fra en felles ontologi som skal dekkes til et bestemt nivå.  800 basebegrep som befinner seg på et høyt nivå i taksonomien, er "arvet" fra EuroWordNet-prosjektet for å sikre mest mulig leksikalsk overlapping mellom språkene. De 10 000 ordbetydningene er fordelt på 7000 substantiv, 2000 verb og 1000 adjektiv. Hver betydning oppføres som et eget lemma i leksikonet. For hvert lemma oppgis følgende spesifikasjoner:

 

a) semantisk klasse

b) domene

c) betydningsbeskrivelse

d) korpuseksempel

e) argumentstruktur

f) seleksjonsrestriksjoner

g) semantiske relasjoner

 

a) Semantisk klasse hentes fra SIMPLE-ontologien, som består av 139 hierarkisk ordnede begreper eller semantiske typer.

b) Domene tilsvarer omtrent det man i tradisjonelle ordbøker kaller fagområde, og er en viktig opplysning, siden ord kan ha svært forskjellig betydning avhengig av hvilken fagsammenheng det brukes i. Det fins en felles domenespesifikasjon som skal modifiseres for norsk.

c) Betydningsbeskrivelse skal for den norske versjonen hentes fra Bokmålsordboka, i den danske versjonen har man stort sett basert seg på Nudansk ordbog.

d) Korpuseksempler er i første omgang hentet fra Tekstlaboratoriets Oslokorpus (jf. artikkelen av Pål Kristian Eriksen). Når LDB-prosjektets leksikografiske korpus blir ferdig (jf. nedenfor), skal disse eksemplene kontrolleres og eventuelt erstattes eller suppleres med belegg derfra.

e) Argumentstruktur eller semantisk valens skal i den grad det er overlapping mellom lemmaene, hentes fra NorKompLeks-prosjektets beskrivelse av verbene i Bokmålsordboka. Denne operasjonen vil samtidig bli en kvalitetskontroll av argumentbeskrivelsen i NorKompLeks.

 f) Seleksjonsrestriksjoner er en kartlegging av de semantiske krav som stilles til lemmaenes argumenter, f.eks. om et verb krever humant subjekt.

g) Semantiske relasjoner beskrives formalisert ut fra Pustejovskys såkalte qualiastruktur. Denne firedelte qualiastrukturen er ofte tilstrekkelig for å kartlegge lekikalske egenskaper. I  tillegg blir synonymi-, polysemi- og kollokasjonsrestriksjoner markert.

 

For punkt f) og g) vil vi ha særdeles stor nytte av den beskrivelsen som er gjort for dansk, i den grad det er god ekvivalens mellom danske og norske lemmaer. Den svenske leksikalske databasen som er utarbeidet ved Språkdata i Göteborg, vil også gi nyttig grunnlag for den norske beskrivelsen.

 

Ekvivalensen mellom norsk og dansk må kontrolleres mot definisjonen i Bokmålsordboka og de korpusbeleggene som er funnet for norsk. Ekvivalensrelasjonene er dårlig kartlagt mellom de skandinaviske språkene, også i tradisjonell leksikografi. En av grunnene til at det er viktig å lage et norsk SIMPLE-leksikon, er nettopp å få en formalisert beskrivelse av ordenes delbetydninger som gjør det mulig å koble de forskjellige betydningsrelasjonene i de tre skandinaviske språkene i en felles leksikalsk base. Det er målet i det såkalte SkanLex-prosjektet, der utviklingen av et norsk SIMPLE-leksikon er første trinn. Ved denne sammenkjedingen skal engelsk brukes som metaspråk, og den strengt systematiserte betydningsoppdelingen i The New Oxford Dictionary of English skal fungere som fellesnevner for beskrivelsene.

 

SIMPLE gir en beskrivelse av ordenes interne semantiske struktur på en formalisert måte, slik at leksikonet også kan leses av datamaskiner og kobles til den felles ontologien. Dermed vil et slikt leksikon være svært nyttig i automatiske oversettingsprogrammer. Dersom norsk språk skal være med i utviklingen av maskinoversettelse og andre språkteknologiske applikasjoner, er slik beskrivelse av leksikon en forutsetning. Som leksikografer ser vi det som en naturlig og viktig oppgave for oss å utarbeide et slikt leksikon.

 

Det danske lemmautvalget er gjort ut fra den felleseuropiske basen av grunnbegreper. I tillegg har man gjort noen frekvensanalyser av moderne dansk. For norsk skal det likeledes gjøres frekvensstudier ut fra det leksikografiske korpuset som  vi er i ferd med å bygge opp for prosjektet Leksikalsk database for moderne norsk (LDB). Også dette korpuset bygges i samråd med Tekstlaboratoriet, og gjøres mest mulig kompatibelt med Oslo-korpuset.

 

Videre anvendelse og utvikling av resultatet er avhengig av samarbeid mellom vår seksjon og Tekstlaboratoriet. I første omgang har sivilarbeider Pål Kristian Eriksen ved Tekstlaboratoriet gått gjennom vel halvparten av leksikonet og satt inn forslag til norske ekvivalenter samt korpusbelegg. Han har også merket av der det har vært spesielle ekvivalensproblemer eller andre komplikasjoner. Det arbeidet gir oss et nyttig oversyn over materialet og de problemer som er forbundet med manglende ekvivalens. Når alle ekvivalenter og tilstrekkelige korpusbelegg er funnet, må de semantiske relasjonene analyseres nøye før vi enten godtar den eksisterende beskrivelsen fra dansk, modifiserer den eller forkaster den. Det er her den leksikologiske hovedutfordringen i vårt prosjekt ligger.

 


[Neste | Inhold | Tekstlab | HF]


2. mai 2001, AN, <anders.noklestad@ilf.uio.no>