|
Big Brother-korpuset inneholder så langt omtrent 150 000 ord, men vi har enn så lenge bare transkribert ca. halvparten av TV-sendingene og regner derfor med at korpusstørrelsen vil bli doblet i framtiden. Transkripsjonene er kodet i forhold til standarden til IMS Corpus Workbench, Institut für Maschinelle Sprachverarbeitung, ved Universitetet i Stuttgart. Grensesnittet er utviklet ved Tekstlaboratoriet.
[Søk i korpuset ved
å klikke og skrive] [Tekstlaboratoriets
hjemmeside]
Korpuset inneholder transkripsjoner av de fleste av TVNorges Big Brother-sendinger fra 2001. Vi er i ferd med å knytte transkripsjonene til lyd- og videoopptak, slik at man også kan få se videobiter eller høre lydutsnitt fra de enkelte linjene i konkordansene. Enn så lenge gjelder dette bare for noen av sendingene, men på sikt skal korpuset i sin helhet bli kodet på denne måten.
[Søk i korpuset ved å klikke og skrive] [Toppen av siden]
Vi ser det som svært viktig at språkforskningen i Norge får et talespråkskorpus med spontantale å arbeide med. Siden det er svært dyrt og tidkrevende å få utviklet et slikt korpus, er vi glad for å ha hatt muligheten til å få bruke Big Brother-sendingene, og er takknemlige overfor Nordic Entertainment og Lasse Hallberg, som har gitt oss lov til å bruke materialet.
Hvorfor Big Brother? Materiale om spontantalespråk er mangelvare i Norge. Det er generelt svært vanskelig å få tak i den slags tekster: På den ene siden kan opptakspersonene være pinlig klar over at det står en mikrofon i nærheten, og at det de sier vil bli brukt, og klarer derfor ikke å forholde seg naturlig. Det gjelder de fleste radio- og TV-programmer, hvor deltagerne kan være preget av stundens alvor, og kanskje har forberedt seg skriftlig. På den annen side kan man ha situasjoner hvor opptakspersonene ikke er klar over at det de sier, blir tatt opp. Da får man både etiske og juridiske problemer med å bruke materialet, samt at selve opptakskvaliteten kan være altfor dårlig. Reality-programmer som Big Brother unngår flere av disse problemene. For det første er opptakspersonene så vant til mikrofoner at vi mener de etter noen uker oppfører seg som ellers, og altså ignorerer at de finnes. For det andre er det ingen juridiske eller etiske problemer her som skulle skyldes opptakspersonenes uvitenhet om den utsatte situasjonen de er i.
Opptak av talespråk har tradisjonelt vært gjort i intervjuer mellom forsker og informant. Da er det vanskelig, om ikke umulig, å få til naturlig tale. Men Big Brother-sendingene har flere kvaliteter enn selv det naturligste intervju. De inneholder samtaler av mange slag, som dialog og polilog, og ikke minst taleakter som løfter, kommandoer, erklæringer om kjærlighet og hat, krangler, og spørsmål - for å nevne noen interessante språklige situasjoner.
Vi ser Big Brother-korpuset som et første skritt videre mot et skikkelig
korpus av norsk spontantalespråk. Neste skritt er NoTa-Oslo, se prosjektets hjemmeside her.
[Søk i korpuset ved å klikke og skrive] [Toppen av siden]
Resultatene av søking vises som konkordanslinjer med tekst, men ved å trykke på symboler foran hver linje kan man få høre lyd eller se video. Vi har valgt å bruke et enkelt, menybasert grensesnitt kalt Klikk og skriv. I dette grensenittet kan man spesifisere mesteparten av informasjonen om søket vha klikking i bokser og valg fra menyer, men man må selvfølgelig skrive inn de ordene eller orddelene man vil søke etter.
Man kan be om å søke på ord, deler av ord og begrensninger innenfor teksttype, og kombinere slike søk på et utall av måter. Man kan be om en KWIC-konkordans (KWIC, KeyWord In Context) eller be om distribusjon av resultatene etter former eller kilde. Man kan samtidig få både konkordans og distribusjon.
Man har muligheten til å søke på ett, to eller tre ord - eller deler av ord (begynnelse eller slutt) - rett etter hverandre, eller med et selvvalgt antall ord mellom. Man kan også velge hvilke dager man ønsker å søke i.
Husk! For hvert nytt søk: Tøm skjemaet.
[Søk i korpuset ved å klikke og skrive] [Toppen av siden]
Størrelsen på søkeresultatene man kan få, er begrenset (se Informasjon om grensesnittet nedenfor), men for helt spesielle formål kan vi la forskere få se større utsnitt av tekst og video av gangen. Vennligst kontakt oss om dette.
[Søk i korpuset ved å klikke og skrive] [Toppen av siden]
Big Brother-korpuset er tilgjengelig for alle som ønsker å bruke det til forskning og undervisning, dvs. all ikke-kommersiell bruk. For å få tillatelse, inkludert brukernavn og passord, sender man en e-post til Tekstlaboratoriet (tekstlab@ilf.uio.no) med følgende informasjon:
Forutsetninger for bruk av Big Brother-korpuset gitt av Nordic Entertainment:
Du vil få svar i løpet av kort tid.
[Søk i korpuset ved å klikke og skrive] [Toppen av siden]
Dette er et grensesnitt mot CQP, Corpus Query Processor, som hører til IMS Corpus Workbench, utviklet av Oliver Christ og Bruno Maximilian Schulze ved Institut für Maschinelle Sprachverarbeitung, Universitetet i Stuttgart. Prøv gjerne ut deres liste over hyppige spørsmål.
Vi er svært glade for å ha fått lov til å bruke CQP-søkeverktøyet til forskningsformål.
De som kjenner CQP-grensesnittet, kan bruke det så godt som i sin helhet her. Noen restriksjoner vil bli beskrevet nedenfor.
[Søk i korpuset ved å klikke og skrive] [Toppen av siden]
Det nåværende søkegrensesnittet gjør det mulig
Søkeresultatet vises sammen med en angivelse av hva slags søk som ble foretatt av brukeren, samt dato og antall søketreff.
I noen tilfeller blir det gitt advarsler eller hjelpemeldinger. For eksempel:
For å hindre brukerne i å laste ned hele tekster til sin maskin har vi lagt inn følgende begrensninger:
Dette er versjon 1 av korpuset.
[Søk i korpuset ved å klikke og skrive] [Toppen av siden]
Vi har planlagt noen forbedringer som vi håper vil komme i løpet av nokså kort tid. Noen av dem vil vi foreta fortløpende, andre vil vi introdusere samtidig med innføring av neste versjon av Big Brother-korpuset.
Vi ønsker alltid å kunne forbedre Big Brother-korpuset. Derfor setter vi pris på alle forslag til forbedringer (se Kontakt oss-siden).
[Søk i korpuset ved å klikke og skrive] [Toppen av siden]
Vi ser gjerne at forskere som har brukt korpuset i foredrag eller skriftlige arbeider, forteller oss om det. Vi vil gjerne utvide denne lista over slike arbeider, til nytte og glede for oss alle.
[Søk i korpuset ved å klikke og skrive] [Toppen av siden]
Følgende personer har vært involvert i Big Brother-prosjektet og i de tekniske løsninger som er brukt:
[Søk i korpuset ved å klikke og skrive] [Toppen av siden]
Opplysningene her hentet fra denne presentasjonen, som TVNorge la ut på sine hjemmesider.
[Søk i korpuset ved å klikke og skrive] [Toppen av siden]