Informanter
Om BigBrother
Transkripsjon
Prosjektinfo
Kontakt


BigBrother-korpuset

BigBrother-korpuset er et talespråkskorpus som består av den første sesongen av BigBrother som ble sendt på norsk tv (våren 2001). Deltakerne i BigBrother er i alderen 23-36 år og snakker ulike dialekter. Klikk på fanen "Informanter" ovenfor for mer informasjon.

BigBrother-korpuset inneholder lyd- og videoopptak av nesten alle de 100 sendingene som ble vist på tv, sirka 550 000 ord. Opptakene er linket til ortografiske transkripsjoner av det som sies. Transkripsjonene er også tagget morfologisk.

Den første versjonen av BigBrother-korpuset ble laget på Tekstlaboratoriet i 2001 - 2002. Et nytt prosjekt ble satt i gang høsten 2007, og ble ferdigstilt våren 2009. Klikk på fanene ovenfor for mer informasjon om prosjektet.


Referer til korpuset slik:

BigBrother-korpuset, Tekstlaboratoriet, ILN, Universitetet i Oslo. http://www.tekstlab.uio.no/nota/bigbrother/

 

 

Deltagerne i BigBrother

 

Oversikt over informantene

I alt 12 personer var med i BigBrother 2001. De fleste var med over en lengre periode, mens den som var med kortest, kun var inne i huset i tre dager. Tabellen nedenfor gir en oversikt over deltagerne.

Navn Alder Fødested
Grønkvist, Roy 32 år ukjent
Hansen, Anne Mona 24 år Flekkefjord
Karlsen, Rodney Omdal 26 år Skien
Ringom, Lars Joakim 22 år Lillehammer
Sundt, Anita E. 25 år Oslo
Strand, Natalie 23 år Russland
Suleiman, Ramsy 23 år Ålesund
Syvertsen, Trond 35 år Greåker
Sørensen, Monica 28 år Oslo
Witzøe, Per Morten 36 år Oslo
Young, Anette 24 år ukjent
Østby, Rebekka 27 år Moss

I korpuset refereres deltagerne til med fornavn.

Kort presentasjon av deltakerne

Informasjonen i denne uformelle presentasjonen av deltagerne er bl.a. hentet fra Big Brothers norske hjemmesider, www.bigbrother.no (siden er ikke lenger tilgjengelig). Ikke alle deltagerne er med i presentasjonen. På Wikipedia finnes diverse sider med informasjon om Big Brother og de ulike deltagerne, se http://no.wikipedia.org/wiki/Hovedside.

 

 

 


Om BigBrother som talespråkskorpus

Talespråkskorpus med spontantale er uvurderlige i språkforskning. Opptak av talespråk har tradisjonelt vært gjort i intervjuer mellom forsker og informant, eller ved opptak av fri samtale mellom to informanter. Dette har vi bl.a. gjort i NoTa-Oslo, og en lignende framgansgmåte benyttes i innsamling av data til Nordisk dialektkorpus lenke. BigBrother-korpuset er derfor i unikt i forskningssammenheng fordi det representerer tilgjengelig spontantale som ikke er tatt opp i forskningsøyemed.

Av åpenbare etiske og juridiske årsaker kan man ikke gjøre opptak av personer uten deres viten og vilje. I intervjuer med og samtaler mellom informanter er det mulig, men svært vanskelig, å dokumentere en helt naturlig tale. I en opptakssituasjon vil informantene alltid være seg bevisst at det gjøres lyd- og eventuelt videoopptak av dem. Tilstedeværelsen av opptaksutstyr og forskere vil nesten alltid ha en eller annen innvirkning enten på informantens språk, væremåte, eller begge deler. I BigBrother-materialet finnes ikke disse begrensningene, selv om deltagerne naturligvis er seg veldig bevisst den situasjonen de befinner seg i, med konstant overvåkning av alt de sier og gjør. Dette påvirker helt sikkert informantenes generelle atferd, men i vesentlig mindre grad deres språklige atferd, særlig siden informantene ikke er klar over at språket deres er gjenstand for forskningsmessig interesse.

Informantene er etter hvert vant til å omgås hverandre og diskuterer, krangler, småprater osv. som om de var en vanlig vennegjeng. I motsetning til kontrollerte opptak som er begrenset til intervju og dialog, består dermed BigBrother-materialet av mange samtaler om alle mulige emner og innenfor ulike genre. Det er ingen begrensning til kun to informanter i en samtale, og det er tidvis sterke følelser i sving, noe som også kan tenkes å ha innvirkning på språket. Dette er naturligvis ikke tilfellet for vanlige talespråkskorpora.

Det er dyrt og tidkrevende å få utviklet talespråkskorpus, og vi er derfor takknemlige for å kunne bruke Big Brother-sendingene til dette. Tusen takk til Nordic Entertainment og Lasse Hallberg som har gitt oss lov til å bruke materialet.

.


Tilgang til korpuset

Big Brother-korpuset er tilgjengelig for alle som ønsker å bruke det til forskning og undervisning, dvs. all ikke-kommersiell bruk. For å få tillatelse, fyller man ut dette skjemaet.


Forutsetninger for bruk av Big Brother-korpuset gitt av Nordic Entertainment:

  1. Opptakene skal ikke under noen omstendighet distribueres i kommersielt øyemed, men kun brukes til FoU (forskning og utvikling).
  2. Undersøkelser og vitenskapelige arbeider basert på Big Brother-korpuset kan publiseres.
  3. Den enkelte forsker skal eksplisitt forplikte seg til å behandle opptaksmaterialet og personene på opptakene med respekt og seriøsitet. Dessuten bør enhver publisering av vitenskapelige arbeider som inneholder eksempler fra korpuset, anonymisere deltagerne, og søke å unngå bruk av deltagernes navn.

 

 


Transkripsjon og tagging av BigBrother-korpuset

Prosjektet er transkribert ortografisk etter samme standard som i NoTa-prosjektet. Transkripsjonene er tagget med en statistisk talemålstagger utviklet for NoTa-prosjektet. Denne taggeren er trent på talemålsmaterialet fra NoTa-Oslo. Taggeren merker hvert ord i materialet med ordklasse og annen morfologisk informasjon. Resultatet er godt: I en 10-delt kryssvalidering ble prestasjonsnivået til taggeren målt til å være 96,9 %.

Transkripsjonsveiledning og taggerveiledning med beskrivelse av fremgangsmåte for transkripsjon og tagging kan lastes ned fra lenkene under i henholdsvis pdf- og MS Word-format


Dataene i BigBrother er vesentlig mindre strukturert enn NoTa-materialet, så vi har inført noen ekstra tagger for å ta hånd om dette:

 

 


BigBrother-prosjektet

Første del av BigBrother-prosjektet ble gjennomført i 2001 og 2002. Da ble 40 av de 100 sendingene ortografisk transkribert etter standarden som er beskrevet på denne siden.

For perioden august 2007 til og med desember 2007 fikk vi støtte til prosjektet Developing and completing language resources: The Big Brother show as a modern speech corpus fra Norges forskningsråd gjennom KUNSTI-programmet (Kunnskapsutvikling for norsk språkteknologi). Gjennom prosjektet fikk vi fullført transkripsjonen av hele BigBrother-materialet, tagget det morfologisk og gjort det tilgjengelig for forskning via et enkelt web-grensesnitt, der transkripsjonene er integrert med lyd og video.


Følgende personer er involvert i BigBrother-prosjektet høsten 2007:


Det første BigBrother-prosjektet i 2001 og 2002 involverte følgende personer:

 

Kontakt

Kontakt Janne Bondi Johannessen (22 85 68 14) eller Kristin Hagen (22 85 71 10) for mer informasjon.
E-post-adresser: j.b.johannessen, kristin.hagen eller tekstlab-post - alle ved @iln.uio.no

Gå til Norske talespråkskorpus
English
Søk i BigBrother
ILN