Wikipedia:Skole og universitetsprosjekt/Utvidet statistikk på Wikipedia

Utvidet statistikk på Wikipedia da vi mangler en god del statistikk om hvordan prosjektet utvikler seg. Mye av dette er interne statistikker som er viktige for prosjektstyring, men å lage statistikkene løser ikke problemet direkte for prosjektene er jo ikke «styrt» - statistikkene gis en slik form at de påvirker brukere til å ta valg som omtrent går i riktig retning. Det er brukerens valg i middel som som skal gå i riktig retning, og denne middelverdien kan oppstå over relativt lang tid.

Det er både et pågående internt prosjekt WikiXRay og et større arbeid som er av interesse.^[1] Hvordan kan vi gjøre rådata tilgjengelig for viderebehandling uten å komme i konflikt med personvern, og på en slik måte at nettsamfunnet kan viderebehandle dataene. Kan noen form for utvidelser lages som åpner for sammenstilling av statistikker for å visualisere nye aspekter?

Aktuelle sider er Squid logging på WikiTech, loggene som er lagret på Dammit.lt og Erich Zachtes analyser på Wikistats: Wikimedia Statistics.

Bidragsstatistikker

Bidragsstatistikker er statistikker knyttet til selve innholdsproduksjonen; hvem redigerer, hva redigerer de, hvorfor redigerer de. Kan noen av disse statistikkene produseres på noe vis som gjør de til en kollektiv aktivitet? Noe kan kanskje hentes ut fra korrelasjon med kategorier, mens manglende korrelasjon med kategorier indikerer vedlikeholdsarbeid og sterk korrelasjon indikerer en fagperson. Korrelasjon mellom brukeres aktivitet indikerer samarbeid. Korrelasjon på enkelte tider av dagen kan indikere henholdsvis betalt arbeid eller hobby.

Bidragstelling utfra lagrede bidrag er det som har vært mest aktuelt på Wikipedia og forskning knyttet til Wikipedia. Dette kommer av problemene knyttet til å beregne en mer fingranulert oppløsning. Det er imidlertid mulig å bruke algoritmer for å beregne tilvekst fra bidrag som har en relativt god presisjon, men som likevel unngår den ulineære kompleksiteten tilordinær redigeringsavstand. ^[2] Det er også laget noen eksempelimplementasjoner av slik prosessering i Javascript.^[3] ^[4] ^[5]

Innholdstatistikker

Innholdsstatistikker er statistikker knyttet til selve innholdets art; forskjeller i semantisk felt mellom språkversjonene, hva blir omtalt i de forskjellige språkene, kan det forutsies hva som er forskjeller, hvordan påvirker dette interaksjoner mellom brukere - om det gjør det. Mye av dette kommer inn under forskning angående self focus.^[6] ^[7] En god del informasjon kan trekkes ut ved å se på iw-lenker mellom kategorier og så se på omfanget av artikler i de enkelte språkene. Et problem er imidlertid hvordan kategorier skal håndteres som er fragmentert på enkelte språk, og kategorier som ikke har et direkte motstykke mellom språkene.

Vekstmodeller

Vekstmodeller for artikler er også interessant; hvordan bygges artiklene - store med mange omdirigeringer eller små og med få omdirigeringer, hvordan måles vekst av artikler i hele prosjekter, hva er gode mål på artikkelstørrelse og deres innhold. Viktige faktorer som bør bedømmes og kvantiseres er hva er forutsetningene for å oppnå artikkelvekst, må artikler over et visst nivå for å vokse og hva er eventuelt dette nivået.

Hvis mulig bør slike analyser kobles opp mot kreditering av brukere slik at vi oppnår sosial belønning. Ved å fokusere på en positiv tilbakemeldig til skribentene kan det oppnås effekter, ikke minst kan slikt øke en brukers vilje til å bidra mer enn han eller hun ellers ville bidra.

Visualisert historikk og brukerbidrag

Det er mulig å bruke artiklenes historikk til å visualisere deres tilblivelse utfra det som gjerne omtales som varianter av «history flow» og varianter av «revision tree». ^[8] ^[9] Det første prøver å synliggjøre hva som skjer med selve innholdet, det siste synliggjør hva som skjer med endringer og omorganiseringer av det viruelle revisjonstreet. Det er lagd en eksempelimplementasjon i Javascript for en variant av history flow.^[10] ^[11]

I tillegg til disse er det mulig å lage en slags variant av history flow, men knyttet til en spesifikk bruker istedenfor til en artikkel. Denne typen history flow for en enkeltbruker er antakelig viktig for å vise verdien i det en del «vaktmestere» bidrar med på Wikipedia. Uten slike verktøy for å visualisere hva disse gjør så vil de falle gjennom når de holdes opp mot bidrag på «skrytelistene» for Wikipedia:Utmerkede artikler og Wikipedia:Anbefalte artikler. Disse to listene representerer kun en marginal del av det totale volumet på Wikipedia.

Referanser

[1] Soto, José Felipe Ortega; Wikipedia: A quantitative analysis

[2] Ranking of authors in the Norwegian (bokmål) Wikipedia på wiki.jeb.no

[3] Hjelp:Forfattere av sider

[4] Bruker:Jeblad/MediaWiki:Gadget-page-authors.js

[5] MediaWiki:Gadget-page-authors-simple.js

[6] Hect, Brent; Gergle, Darren; The Tower of Babel Meets Web 2.0: User-Generated Content and Its Applications in a Multilingual Context

[7] Hect, Brent; Gergle, Darren; Measuring Self-Focus Bias in Community-Maintained Knowledge Repositories

[8] PARC: WikiDashboard – Providing a social transparency visualization tool for Wikipedia

[9] WikiDashboard: Wikipedia – Main Page

[10] Bruker:Jeblad/Hjelp:Grafikk for historikken

[11] User:Jeblad/MediaWiki:Gadget-show-graph-history.js

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]