Tekstlab hjemmeside

UiO hjemmeside

Big Brother-korpuset

Big Brother-korpuset inneholder så langt omtrent 150 000 ord, men vi har enn så lenge bare transkribert ca. halvparten av TV-sendingene og regner derfor med at korpusstørrelsen vil bli doblet i framtiden. Transkripsjonene er kodet i forhold til standarden til IMS Corpus Workbench, Institut für Maschinelle Sprachverarbeitung, ved Universitetet i Stuttgart. Grensesnittet er utviklet ved Tekstlaboratoriet.

  1. Tekst, lyd og bilde i korpuset
  2. Big Brother-korpuset som et talespråkskorpus
  3. Typer av mulige søk
  4. Hvordan få tillatelse til å benytte korpuset
  5. Teknisk informasjon
  6. Versjon
  7. Planlagte forbedringer
  8. Oversikt over brukerne av korpuset
  9. Retningslinjer for transkripsjon
  10. Publikasjoner
  11. Personer
  12. Deltakere i Big Brother 2001
  13. Transkripsjonseksempel
  14. Big Brother-korpuset i pressen
Konkordans med avisbakgrunn

[Søk i korpuset ved å klikke og skrive] [Tekstlaboratoriets hjemmeside] Tekstlab hjemmeside


Tekst, lyd og bilde i korpuset

Korpuset inneholder transkripsjoner av de fleste av TVNorges Big Brother-sendinger fra 2001. Vi er i ferd med å knytte transkripsjonene til lyd- og videoopptak, slik at man også kan få se videobiter eller høre lydutsnitt fra de enkelte linjene i konkordansene. Enn så lenge gjelder dette bare for noen av sendingene, men på sikt skal korpuset i sin helhet bli kodet på denne måten.

[Søk i korpuset ved å klikke og skrive] [Toppen av siden]


Big Brother-korpuset som et talespråkskorpus

Vi ser det som svært viktig at språkforskningen i Norge får et talespråkskorpus med spontantale å arbeide med. Siden det er svært dyrt og tidkrevende å få utviklet et slikt korpus, er vi glad for å ha hatt muligheten til å få bruke Big Brother-sendingene, og er takknemlige overfor Nordic Entertainment og Lasse Hallberg, som har gitt oss lov til å bruke materialet.

Hvorfor Big Brother? Materiale om spontantalespråk er mangelvare i Norge. Det er generelt svært vanskelig å få tak i den slags tekster: På den ene siden kan opptakspersonene være pinlig klar over at det står en mikrofon i nærheten, og at det de sier vil bli brukt, og klarer derfor ikke å forholde seg naturlig. Det gjelder de fleste radio- og TV-programmer, hvor deltagerne kan være preget av stundens alvor, og kanskje har forberedt seg skriftlig. På den annen side kan man ha situasjoner hvor opptakspersonene ikke er klar over at det de sier, blir tatt opp. Da får man både etiske og juridiske problemer med å bruke materialet, samt at selve opptakskvaliteten kan være altfor dårlig. Reality-programmer som Big Brother unngår flere av disse problemene. For det første er opptakspersonene så vant til mikrofoner at vi mener de etter noen uker oppfører seg som ellers, og altså ignorerer at de finnes. For det andre er det ingen juridiske eller etiske problemer her som skulle skyldes opptakspersonenes uvitenhet om den utsatte situasjonen de er i.

Opptak av talespråk har tradisjonelt vært gjort i intervjuer mellom forsker og informant. Da er det vanskelig, om ikke umulig, å få til naturlig tale. Men Big Brother-sendingene har flere kvaliteter enn selv det naturligste intervju. De inneholder samtaler av mange slag, som dialog og polilog, og ikke minst taleakter som løfter, kommandoer, erklæringer om kjærlighet og hat, krangler, og spørsmål - for å nevne noen interessante språklige situasjoner.

Vi ser Big Brother-korpuset som et første skritt videre mot et skikkelig korpus av norsk spontantalespråk. Neste skritt er NoTa-Oslo, se prosjektets hjemmeside her.

[Søk i korpuset ved å klikke og skrive] [Toppen av siden]


Typer av mulige søk

Resultatene av søking vises som konkordanslinjer med tekst, men ved å trykke på symboler foran hver linje kan man få høre lyd eller se video. Vi har valgt å bruke et enkelt, menybasert grensesnitt kalt Klikk og skriv. I dette grensenittet kan man spesifisere mesteparten av informasjonen om søket vha klikking i bokser og valg fra menyer, men man må selvfølgelig skrive inn de ordene eller orddelene man vil søke etter.

Man kan be om å søke på ord, deler av ord og begrensninger innenfor teksttype, og kombinere slike søk på et utall av måter. Man kan be om en KWIC-konkordans (KWIC, KeyWord In Context) eller be om distribusjon av resultatene etter former eller kilde. Man kan samtidig få både konkordans og distribusjon.

Man har muligheten til å søke på ett, to eller tre ord - eller deler av ord (begynnelse eller slutt) - rett etter hverandre, eller med et selvvalgt antall ord mellom. Man kan også velge hvilke dager man ønsker å søke i.

Husk! For hvert nytt søk: Tøm skjemaet.

Eksempler på hovedtyper av søk

[Søk i korpuset ved å klikke og skrive] [Toppen av siden]


Større utsnitt

Størrelsen på søkeresultatene man kan få, er begrenset (se Informasjon om grensesnittet nedenfor), men for helt spesielle formål kan vi la forskere få se større utsnitt av tekst og video av gangen. Vennligst kontakt oss om dette.

[Søk i korpuset ved å klikke og skrive] [Toppen av siden]


Hvordan få tillatelse til å bruke korpuset

Big Brother-korpuset er tilgjengelig for alle som ønsker å bruke det til forskning og undervisning, dvs. all ikke-kommersiell bruk. For å få tillatelse, inkludert brukernavn og passord, sender man en e-post til Tekstlaboratoriet (tekstlab@ilf.uio.no) med følgende informasjon:

  1. NAVN
  2. ADRESSE
  3. INSTITUSJONSTILKNYTNING
  4. foreslått BRUKERNAVN for korpuset,
  5. foreslått PASSORD for å bruke korpuset (IKKE det passordet du ellers bruker!)
  6. UTTALELSE 1 ("Jeg lover å bruke Big Brother-korpuset utelukkende for akademiske, ikke-kommersielle formål og i samsvar med forutsetningene som er gitt av Nordic Entertainment og gjengitt på hjemmesiden til korpuset.")
  7. UTTALELSE 2 ("Jeg lover å la passordet mitt være strengt personlig, og vil ikke distribuere det videre til noen person eller institusjon. ")
  8. UTTALELSE 3 ("Jeg vil alltid referere skikkelig til korpuset med navn og internettadresse i alt jeg skriver hvor korpuset er brukt, både når det gjelder publiserte og upubliserte tekster.")

Forutsetninger for bruk av Big Brother-korpuset gitt av Nordic Entertainment:

  1. Opptakene skal ikke under noen omstendighet distribueres i kommersielt øyemed, men kun brukes til FoU (forskning og utvikling).
  2. Undersøkelser og vitenskapelige arbeider basert på Big Brother-korpuset kan publiseres.
  3. Den enkelte forsker skal eksplisitt forplikte seg til å behandle opptaksmaterialet og personene på opptakene med respekt og seriøsitet. Dessuten bør enhver publisering av vitenskapelige arbeider som inneholder eksempler fra korpuset, anonymisere deltagerne, og søke å unngå bruk av deltagernes navn.

Du vil få svar i løpet av kort tid.

[Søk i korpuset ved å klikke og skrive] [Toppen av siden]


Teknisk informasjon

IMS Corpus Workbench

Dette er et grensesnitt mot CQP, Corpus Query Processor, som hører til IMS Corpus Workbench, utviklet av Oliver Christ og Bruno Maximilian Schulze ved Institut für Maschinelle Sprachverarbeitung, Universitetet i Stuttgart. Prøv gjerne ut deres liste over hyppige spørsmål.

Vi er svært glade for å ha fått lov til å bruke CQP-søkeverktøyet til forskningsformål.

De som kjenner CQP-grensesnittet, kan bruke det så godt som i sin helhet her. Noen restriksjoner vil bli beskrevet nedenfor.

[Søk i korpuset ved å klikke og skrive] [Toppen av siden]


Informasjon om søkegrensesnittet

Det nåværende søkegrensesnittet gjør det mulig

Søkeresultatet vises sammen med en angivelse av hva slags søk som ble foretatt av brukeren, samt dato og antall søketreff.

I noen tilfeller blir det gitt advarsler eller hjelpemeldinger. For eksempel:

Viktige begrensninger

For å hindre brukerne i å laste ned hele tekster til sin maskin har vi lagt inn følgende begrensninger:


Versjon

Dette er versjon 1 av korpuset.

[Søk i korpuset ved å klikke og skrive] [Toppen av siden]


Planlagte forbedringer

Vi har planlagt noen forbedringer som vi håper vil komme i løpet av nokså kort tid. Noen av dem vil vi foreta fortløpende, andre vil vi introdusere samtidig med innføring av neste versjon av Big Brother-korpuset.

Vi ønsker alltid å kunne forbedre Big Brother-korpuset. Derfor setter vi pris på alle forslag til forbedringer (se Kontakt oss-siden).

[Søk i korpuset ved å klikke og skrive] [Toppen av siden]


Publikasjoner

Vi ser gjerne at forskere som har brukt korpuset i foredrag eller skriftlige arbeider, forteller oss om det. Vi vil gjerne utvide denne lista over slike arbeider, til nytte og glede for oss alle.

[Søk i korpuset ved å klikke og skrive] [Toppen av siden]


Personer

Følgende personer har vært involvert i Big Brother-prosjektet og i de tekniske løsninger som er brukt:

[Søk i korpuset ved å klikke og skrive] [Toppen av siden]


Deltakere i Big Brother 2001

Opplysningene her hentet fra denne presentasjonen, som TVNorge la ut på sine hjemmesider.

 

[Søk i korpuset ved å klikke og skrive] [Toppen av siden]


Big Brother-korpuset i pressen