p-verdi

I statistisk hypotesetesting er p-verdien sannsynligheten for at man får et testresultat som er likt det man fikk eller enda mer ekstremt, dersom man går ut fra at nullhypotesen H₀ stemmer. Man vil ofte forkaste nullhypotesen dersom p-verdien blir under det signifikansnivået man har satt på forhånd, 0,05 eller 0,01 er ofte benyttet, og man kan da si at testen er signifikant. p-verdien er et tall mellom 0 og 1. Jo lavere verdien er, jo mindre forenlig er observasjonene våre med nullhypotesen (H₀), og små p-verdier fører til forkasting av denne.

I seg selv sier p-verdi ikke noe direkte om nullhypotesen er sann eller ikke, men den gir bevis mot nullhypotesen.

Signifikansnivå

En forenklet måte å tolke p-verdien på er at den sier hvor stor sannsynlighet det er for at det vi observerer i en analyse er en tilfeldig egenskap ved det utvalget (eller den gruppen) vi studerer, heller enn å være en egenskap som gjelder for hele populasjonen. En p-verdi på 0,06 vil i så fall indikere at det er 6% sannsynlighet for at det vi har observert bare er tilfeldig. Men siden dette ikke er en eksakt vitenskap opererer man med signifikansnivå.

Når man velger et signifikansnivå for en analyse bestemmer man seg for hvor stor sjanse man kan akseptere for at det man observerer er en tilfeldig egenskap ved det utvalget av enheter man studerer, heller enn en tendens som gjelder hele populasjonen av enheter. Man opererer konvensjonelt med tre signifikansnivå, hvorav et signifikansnivå på fem prosent er vanlig.

Tiprosents signifikansnivå tilsvarer en p-verdi på 0,10 eller mindre
Femprosents signifikansnivå tilsvarer en p-verdi på 0,05 eller mindre
Ettprosents signifikansnivå tilsvarer en p-verdi på 0,01 eller mindre

Dersom man, for eksempel, velger et tiprosents signifikansnivå, aksepterer man så mye som ti prosent sannsynlighet (p=0,10) for at nullhypotesen stemmer og at de tendensene man har observert er tilfeldige. Dersom p-verdien er innenfor et visst signifikansnivå, sier man at den sammenhengen som er observert «er signifikant». For eksempel at «sammenhengen er signifikant innenfor et femprosents signifikansnivå».

Formålet med hypotesetesting i statistikk

Store grupper (eller utvalg) av enheter vil (nesten) alltid være forskjellige fra hverandre, og mange av disse forskjellene er tilfeldige forskjeller. Signifikanstesting blir gjennomført for å sikre at de observasjonene man gjør gjennom en statistisk analyse ikke består av en slik tilfeldig variasjon mellom gruppene/utvalgene.

p-verdien hjelper oss å skille mellom observasjoner (gruppeforskjeller, endringer, effekter etc.) som kunne oppstått ved en tilfeldighet, og observasjoner (gruppeforskjeller, endringer, effekter etc.) som det er lite sannsynlig å observere dersom null-hypotesen er sann.

For å begrense sannsynligheten for feilaktig forkasting av nullhypotesen («Type 1-feil»), velges det alltid en grense for hvor stor denne sannsynligheten kan være. Det gjøres før analysen blir gjennomført. Denne grensen kalles signifikansnivå. Et konvensjonelt valg av signifikansnivå er 0,05, eller 5%. Dersom det er anses som svært viktig å begrense sannsynligheten for type 1-feil, velges et lavere signifikansnivå.

Tre eksempel på nullhypoteser

«Det er ingen forskjell på gruppene vi studerer» («Null forskjell»)
«Det er ingen endring over tid» («Null endring»)
«Det er ingen effekt av X på Y» («Null effekt»)

Eksempel på hypotesetesting

Nullhypotese: «Det er ingen forskjell på nikotintyggegummi og informasjonsbrosjyrer når det gjelder å få folk røykfrie.»

Nikotintyggegummi gis til 40 tilfeldig valgte røykere, og informasjonsbrosjyrer til 41 andre tilfeldig valgte røykere. Etter en måned er 26 blitt røykfrie i tyggegummigruppa, og 21 i informasjonsbrosjyregruppa. Dette er forskjellig. Men er det stor nok forskjell til at vi kan si at det virkelig er en forskjell, eller må vi beholde null-hypotesen som sier at begge deler er like effektivt?

p-verdien for denne forskjellen, altså sannsynligheten for at vi finner så store gruppeforskjeller hvis nikotintyggegummi og informasjonsbrosjyrer er like effektivt, er 0,26 (26%). Med et signifikansnivå på 0,05 beholdes nullhypotesen fordi p-verdien sier at den observerte forskjellen er vanlig for grupper som er like. Disse observasjonene alene er ikke nok til å si at nikotintyggegummi eller informasjonsbrosjyrer er det foretrukne virkemiddelet.

Hvis resultatet av undersøkelsen derimot hadde vært at 26 ble røykfrie i tyggegummigruppa, men bare 15 i informasjonsbrosjyregruppa, ville p-verdien blitt 0,02. Denne verdien forteller at sannsynligheten bare er 2% for at så store forskjeller kunne oppstå ved tilfeldigheter. En så lav p-verdi sier at det vi har observert er uvanlig for grupper som er like, og at det tyder på at null-hypotesen skal forkastes. Konklusjonen ville da blitt at nikotintyggegummi er signifikant mer virkningsfullt enn informasjonsbrosjyrer.

Annet

p-tallet kan lages på mange måter. Kaster man mynt eller krone, er p for enten mynt eller krone lik 1 for et enkelt kast, men 0,5 for et bestemt utfall. For terningkast er sannsynligheten for å få opp en side med tall/prikker = 1/6. Sannsynligheten for at 600 terningkast gir 100 med hvert tall er noe mindre (p-verdi <1).

Setter man sammen observerte frekvenser av spesifikke egenskaper sammenlignet med totalpopulasjonens, kan man lage multiplikative probabiliteter. (Eksempel: Hvis jeg ser på biler som passerer på veien, hvilken sannsynlighet er det for at neste bil er en Ford, rød, med kvinnelig fører som er rødhåret og har med seg et barn i baksetet. P-tallene her skal multipliseres, og siden alle er mindre enn 1, blir sannsynligheten mindre for hver egenskap man legger til.)

Forsikring bygger på aktuarmatematikk, der innbetalte premier skal kunne dekke de sannsynlige inntreffende omstendigheter (p-verdi nær 1), inklusive rimelige avvik. Dersom avvikene blir større enn forventet, blir premiesummene satt opp.