Giellatekno ved Universitetet i Tromsø har stått for morfologisk tagging og parsing av samisk.
LIA-prosjektet har brukt både nyutvikla og gamle verktøy i arbeidet med dei norske transkripsjonane.
- Transkripsjon: ELAN (Multimedia Annotator)
- Omsetjing frå talemålsnær transkripsjon til nynorsk: Oslo-translitteratoren
- Søkegrensesnitt: Nye Glossa
- Morfologisk tagging: LIA-taggaren.
Den nyutvikla taggaren er målt til ein ordklasseaccuracy på 97,25 % ved ei 10-fold kryssvalidering. Lemmatiseraren er målt til ein accuracy på 96,88 %.
LIA-taggaren er ein MarMoT-taggar som er trent på transkripsjonar frå LIA-prosjektet. I denne prosessen blei transkripsjonane først tagga med skriftspråkstaggaren Oslo-Bergen-taggaren for nynorsk. Deretter blei alle taggane korrekturlesne manuelt ved hjelp av eit verktøy utvikla ved Tekstlaboratoriet.
Du kan lese meir om MarMoT her.
- Parsing: Transkripsjonane i LIA skal også annoterast syntaktisk. Annotasjonen skal følge NDT og «Retningslinjer for morfologisk og syntaktisk annotasjon i Norsk dependenstrebank» (Kari Kinn, Per Erik Solberg og Pål Kristian Eriksen, 2013) så langt det er mogeleg. LIA-prosjektet har utarbeida eigne retningslinjer for enkelte talemålstrekk som ikkje er nemnt i NDT-retningslinjene. For tida bygger vi opp ein trebank av syntaktisk annoterte LIA-transkripsjonar som sidan skal brukast til å trene ein dependensparsar for nynorsk talemål. I dette arbeidet bruker vi treningsmaterialet til den morfologiske taggaren og ein parsar som er trent på NDT. Resultatet blir manuelt korrigert ved hjelp av annoteringsverktøyet TreD.
Les om dependenstrebanken i:
Lilja Øvrelid, Andre Kåsen, Kristin Hagen, Anders Nøklestad, Per Erik Solberg and Janne Bondi Johannessen. 2018. The LIA Treebank of Spoken Norwegian Dialects. In Nicoletta Calzolari et al.: Proceedings of the Eleventh International Conference on Language Resources and Evaluation.
Master frå Institutt for informatikk, Andre Kåsen, har arbeidd med morfologisk tagging og parsing på LIA, og har også skrive masteroppgåve om dette. Ta gjerne kontakt: andre.kasen ved nb.no.