Stokastisk variabel

Innen sannsynlighet og statistikk er en tilfeldig variabel, aleatorisk variabel eller stokastisk variabel en variabel med verdien som et utfall av en tilfeldig hendelse[1]. Som en funksjon må den tilfeldige variabelen være målbar, som utelukker visse patologiske tilfeller hvor den tilfeldige variabelens mengde er uendelig sensitiv til små endringer i utfallet.

Det er vanlig at disse utfallene er avhengige av en fysisk variabel som ikke er forståelig. For eksempel ved et myntkast vil utfallet kron eller mynt være avhengig av uviss fysikk. Hvilket utfall som vil bli observert er usikkert. Mynten kunne blitt fanget av en sprekk i gulvet, men slike muligheter er ekskludert fra betraktningen. Definisjonsmengden til en variabel er et sett av mulige utfall. Ved myntkast er det kun to mulige utfall - kron eller mynt. Siden ett av disse utfallene må skje må hver av mulighetene ha en sannsynlighet større enn null.

En tilfeldig variabel er definert som en funksjon som kartlegger numeriske kvantiteters utfall, vanligvis reelle tall. I den forstand er det en prosedyre for å tilegne en numerisk mengde til hvert fysiske utfall, og selve prosedyren er hverken tilfeldig eller variabel, i kontrast til sitt navn. Det tilfeldige er den ustabile fysikken som beskriver hvordan mynten lander, og usikkerheten om hvilket utfall som faktisk vil bli observert.

En tilfeldig variabels mulige verdier kan representere de mulige utfallene av et eksperiment som ennå ikke er utført, eller de mulige utfallene av et allerede utført eksperiment med eksisterende verdier som ennå er usikre (for eksempel på grunn av upresise målinger eller uskarphetsrelasjoner). De kan også konseptuelt representere enten resultatet av en "objektivt" tilfeldig prosess som å trille en terning, eller en "subjektiv" tilfeldighet som et resultat fra utilstrekkelig kunnskap om en mengde. Meningen bak de tilegnede sannsynlighetene til de potensielle verdiene av en tilfeldig variabel er ikke del av sannsynlighetsteorien i seg selv, men er heller relatert til filosofiske argumenter over sannsynlighetsfortolkning. Matematikken fungerer på samme måte uavhengig av hvilken fortolkning en måtte bruke.

En tilfeldig variabel har en sannsynlighetsfordeling som spesifiserer sannsynligheten for at verdien skal falle i et gitt intervall. Tilfeldige variabler kan være diskrete, som er en spesifisert avgrenset eller tellbar liste med verdier, tilegnet en sannsynlighetsmassefunksjons karakteristikk av den tilfeldige variabelens sannsynlighetsfordeling; eller kontinuerlig, å ta hvilken som helst numerisk verdi i et intervall eller samling av intervaller, via en tetthetsfunksjon som er karakteristisk for den tilfeldige variabelens sannsynlighetsfordeling; eller en blanding av begge typene. To tilfeldige variabler med den samme sannsynlighetsfordelingen kan fortsatt være ulike i form av assiosasjoner med, eller uavhengighet fra, andre tilfeldige variabler. En tilfeldig variabels realisering, altså resultatet av å tilfeldig velge verdier i henhold til variabelens tetthetsfunksjon, er kalt tilfeldige varianter.

Den formelle matematiske behandlingen av tilfeldige variabler er et emne innen sannsynlighetsteori. I denne konteksten er en tilfeldig variabel forstått som en funksjon definert i et utfallsrom som produserer numeriske verdier.[2]

Definisjon

rediger

En tilfeldig variabel   er en målbar funksjon fra et sett mulige utfall   til et målbart rom   Den tekniske axiomatiske definisjonen krever   å være et utfallsrom it en sannsynlighetstrippel. Vanligvis er   en reell verdi (i.e.  ).

Sannsynligheten at   tar en verdi i et målbart sett   er notert: hvor   er sannsynlighetsmålet utstyrt med  .

Standard tilfelle

rediger

I mange tilfeller  . I noen kontester er termen tilfeldig element brukt til å betegne en tilfeldig variabel i en annet form.

Når verdimengden (eller området) til   er avgrenset eller tellbar, er den tilfeldige variabelen kalt en diskret stokastisk variabel[3] og dens distribusjon kan bli beskrevet av en sannsynlighetsmassefunksjon som tilegner en sannsynlighet i verdimengden til  . Hvis verdimengden er utellelig er   kalt en kontinuerlig stokastisk variabel. I det spesielle tilfellet der variabelen er absolutt kontinuerlig kan fordelingen bli beskrevet av en tetthetsfunksjon, som tilegner sannsynligheter til intervaller; nærmere bestemt må hvert individuelle punkt nødvendigvis ha ingen sannsynlighet for en absolutt kontinuerlig stokastisk variabel. Ikke alle kontinuerlig stokastiske variabler er absolutt kontinuerlig[4], for eksempel i en blandet fordeling. Slike tilfeldige variabler kan ikke bli beskrevet av en tetthets- eller sannsynlighetsmassefordeling.

Hvilken som helst tilfeldig variabel kan bli beskrevet av dens kumulative fordelingsfunksjon, som beskriver sannsynligheten for at den tilfeldige variabelen vil være mindre eller lik en bestemt verdi.

Forlengelser

rediger

Begrepet tilfeldig variabel innen statistikk er tradisjonelt begrenset til tilfellet med reelle verdier  . Her gjør de reelle tallenes struktur det mulig å definere mengder som forventet verdi og varians til den tilfeldige variabelen, den kumulative forelingsfunksjonen og momentene til dens fordeling.

Denne definisjonen er gylding for alle verdier i det målbare rommet  . Dermed kan en vudere andre setts   tilfeldige elementer, slik som tilfeldige boolske variabler, kategoriske verdier, komplekse tall, vektorer, matriser, sekvenser, trær, sett, figurer, mangfoldighet og funksjoner. Man kan da referere spesifikt til en tilfeldig variabel av type  .

Det mer generelle konseptet om et tilfeldig element er særlig nyttig innen fag som grafteori, maskinlære, naturlig språkbehandling og andre områder i diskret matematikk og informatikk, hvor en er ofte interessert i å modellere ikke-numerisk datastrukturers tilfeldige variasjon. I noen tilfeller er det uansett praktisk å representerer hvert av elementene til   ved å bruke et eller flere reelle tall. I denne tilfellet kan et tilfeldig element valgfritt bli representert som en vektor av tilfeldige variabler med en reell verdi, hvor alle er definert på det samme underliggende sannsynlighetsrommet  , som tillater ulike tilfeldige variabler å samvariere. For eksempel:

  • Et tilfeldig ord kan bli representert som et tilfeldig partall som fungerer som en indeks i mulige ords vokabulær. Det kan også bli representert som en tilfeldig indikatorvektor hvis lengde tilsvarer vokabulærets størrelse, hvor kun positive sannsynligheters verdi er  ,  ,  og tallet 1s posisjon indikerer ordet.
  • En tilfeldig setning av gitt lengde  kan bli representert som en vektor med   tilfeldige ord.
  • En tilfeldig graf på  gitte toppunkter kan bli representert som en   matrise bestående av tilfeldige variabler, som har verdier som spesifiserer den tilfeldige grafens tilstøtende matrise.
  • En tilfeldig funksjon   kan bli representert som en samling tilfeldige variabler   som gir funksjonens verdier på varierende punkter  i funksjonens domene.   er ordinære reelle tilfeldige variabler gitt at funksjonen innehar reelle verdier. For eksempel, en stokastisk prosess er en tilfeldig tidsfunksjon, en tilfeldig vektor er en tilfeldig funksjon av et indekssett  , og et tilfeldig område er en tilfeldig funksjon på et sett (vanligvis tid, rom eller et diskret sett).

Fordelingsfunksjoner

rediger

Hvis en tilfeldig variabel   er definert på sannsynlighetsrommet   er gitt, kan vi stille spørsmål som "Hvor sannsynlig er det at verdien   er lik 2?". Dette er det samme som sannsynligheten for hendelsen   som er ofte skrevet  eller forkortet til  .

Å skrive ned alle disse sannsynlighetene til en tilfeldig variabel   med en reell verdi gir sannsynlighetsfordelingen til  .Sannsynlighetsfordelingen "glemmer" det bestemte sannsynlighetsrommet som er brukt til å definere   og husker kun sannsynlighetene for ulike verdier tilknyttet  . En slik sannsynlighetsfordeling kan alltid bli samlet av dens kumulative fordelingsfunksjon 

og noen ganger også ved å bruke en tetthetsfunksjon,  . Innen målteori bruker vi den tilfeldige variabelen   for å "dytte frem" målet    til en måling   . Det underliggende sannsynlighetsrommet   er en teknisk enhet som er brukt til å garantere tilfeldige variablers eksistens, noen ganger for å lage dem og å definere forestillinger som korrelasjon og avhengighet eller uavhengighet basert på en fellesfordeling bestående av to eller flere tilfeldige variabler i det samme sannsynlighetsrommet. I praksis disponerer en ofte hele rommet   og putter kun et mål på   som tilegner målet 1 til den hele reelle linjen, i.e., man arbeider med sannsynlighetsfordelinger istedenfor tilfeldige variabler.

Eksempler

rediger

Diskrete stokastiske variabler

rediger

I et eksperiment kan en person bli valgt tilfeldig, og en tilfedlig variabel kan være personens høyde. Matematisk er den tilfeldige variablen tolket som en funksjon som hefter en person til den personens høyde. Assosiert med den tilfeldige variablen er en sannsynlighetsfordeling som tillater utregningen av sannsynligheten for at høyden er en mulig verdi i en undergruppe, slik som at sannsynligheten for at høyden er mellom 180 og 190 centimenter, eller sannsynligheten for at høyden er enten mindre enn 150 eller mer enn 200 cm.

En annen tilfeldig variable kan være hvor mange barn en person har; dette er en diskret stokastisk variabel med kun positive heltall som verdier. Det tillater utregningen av sannsynligheter for individuelle heltallsverdier, sannsynlighetsmassefunksjonen (SMF), eller for verdiers sett, inklusive uendelige sett. For eksempel kan det man er interessert i å undersøke være sannsynligheten for å ha et jevnt antall barn. For både avgrensede og uendelige hendelsessett kan sannsynligheten bli funnet ved å addere alle elementers SMF; altså sannsynligheten for et jevnt antall barn er den uendelige summen  .

I slike eksempler er utvalgsrommet (settet bestående av alle mulige personer) ofte undertrykt siden det er vanskelig å beskrive matematisk, og de tilfeldige variablenes positive verdier er så ansett som et utvalgsrom. Men når to tilfeldige variabler er målt på det samme utfalls utvalgsrom, slik som at høyde og antall barn blir kalkulert på de samme tilfeldige personene, er det lettere å spore deres forhold dersom det er anerkjent at både høyde og antall barn kommer fra den samme tilfeldige personen, for eksempel slik at spørsmål om at slike tilfeldige variabler er korrelert eller ikke kan bli stilt.

Myntkast

rediger

De mulige utfallene for et myntkast kan bli beskrevet av utvalgsrommet  . Vi kan introdusere en tilfeldig variabel   med reell verdi som modellerer en 1,- gevinst for et veddemål på kron som følger: Dersom mynten er et fair kast har Y sannsynlighetsmassefunksjonen   gitt av: 

Terningkast

rediger
 
Hvis utfallsrommet er et sett mulige tall kastet ved to terninger, og den aktuelle tilfeldige variabelen er summen S fra tallene på de to terningene, så er S en diskret tilfeldig variabel med en fordeling beskrevet av sannsynlighetsmassefunksjonen som vist på kolonnene i bildet her.

En tilfeldig variabel kan også bli brukt til å beskrive et terningkasts prosess og de mulige utfall. Den mest åpenbare representasjonen for situasjonen med to terninger er å ta parsettene i numrene   og   med   som utvalgsrommet. Det totale antallet som er rullet (summen av øynene i hvert par) er så en tilfeldig variabel   gitt av funksjonen som hefter parene til summen: og, dersom kastet er fair, har en sannsynlighetsmassefunksjon   gitt: .

Kontinuerlig stokastisk variabel

rediger

Et eksempel på en kontinuerlig stokastisk variabel kan være en basert på en spinner som kan velge en horisontal retning. Den tilfeldige variablens verdier som blir tatt da er retninger. Vi kan representere disse retningene med nord, vest, øst, sør, sørøst, etc. Det er vanligvis mer praktisk å hefte utvalgsområdet til en tilfeldig variabel som tar reelle tall som verdier. Dette kan bli gjort, for eksempel, ved å hefte en retning til en gradvis peiling med klokken fra nord. Den tilfeldige variabelen tar så verdier som er reelle tall fra intervallet [0, 360), med alle punkter i spekteret som "like sannsynlige". I dette tilfellet er   den peilede vinkelen. Hvilket som helt reelt tall har muligheten null til å bli valgt, men en positiv sannsynlighet kan bli tilegnet til et intervall med verdier. For eksempel er sannsynligheten for å velge et nummer i [0, 180] lik 0,5. Istedenfor å snakke om en sannsynlighetsmassefunksjon sier vi at sannsynlighetsfordelingen til   er 1/360. Sannsynligheten for at en undergruppe i [0, 360) kan bli regnet ut er ved å multiplisere et setts mål med 1/360. Vanligvis er sannsynligheten for en gitt kontinuerlig stokastisk variabels sett kan bli utregnet ved å integrere tettheten over det gitte settet.

Blandet type

rediger

Et eksempel på en blandet tilfeldig variabel kan være basert på et eksperiment hvor en mynt er kastet og en spinner kun er spunnet dersom myntkastet resulterer i kron. Dersom resultatet er mynt,   ; ellers   spinnerens verdi som i det foregående eksempelet. Det er ensannsynlighet på 0,5 for at denne tilfeldige variabelen vil ha verdien -1. Andre verdiers sekvenser vil ha halvparten av sannsynligheten av det i det foregående eksempelet.

Målings-teoretisk definisjon

rediger

Den mest formelle, aksiomatiske definisjonen av en tilfeldig variabel involverer målteori. Kontinuerlige stokastiske variabler er definert i form av sett med tall, sammen med funksjoner som hefter slike sett til sannsynligheter. Grunnet ulike vanskeligheter (e.g. Banach-Tarski paradokset) som kan oppstå dersom slike sett er utilstrekkelig avgrenset, er det nødvendig å introdusere det som er betegnet som en σ-algebra for å avgrense mulige sett hvor sannsynligheter kan bli definert. Vanligvis er en bestemt σ-algebra brukt, Borels σ-algebra, som tillater sannsynligheter å bli definert over hvilket som helst sett som kan bli utledet enten direkte fra kontinuerlige nummerintervaller eller fra avgrensede eller tellbare uendelige tall fra unioner og/eller slike intervallers interseksjoner.[2]

Den målings-teoretiske definisjonen er som følger.

La   være et sannsynlighetsrom og   et målbart rom. En tilfeldig variabel med verdi   vil så være en målbar funksjon   som betyr at, for hver undergruppe  , dens inverse verdien   hvor  .[5] Denne definisjonen tillater oss å måle hvilken som helst undergruppe   i målrommet ved å se på dens inverse verdi, som er antatt målbar.

I mer intuitive begreper er et medlem i   et mulig utfall, et medlem i   er et mulig utfalls målbare undergruppe, funksjonen   gir sannsynligheten for hvert en slik undergruppe,   representerer settet med verdier som den tilfeldige variabelen kan ta (som settet med reelle tall), og et medlem i   er en "veloppdragen" undergruppe i   (for de med en bestemt sannsynlighet). Den tilfeldige variabelen er da en funksjon fra hvilken som helst mengdes utfall, slik at utfallet som fører til en brukbar mengdes undergruppe for den tilfeldige variabelen har en godt definert sannsynlighet.

Når  er et topologisk rom er det mest vanlige valget for σ-algebraet   Borels σ-algebra  , som er σ-algebraet generert av samlingen av alle åpnet sett i  . I slike tilfeller er den tilfeldige variabelen med verdi   kalt den tilfeldige variabelen med verdi  . Dessuten, når rommet   er den reelle linjen  , er en slik tilfeldig variabel med reell verdi simpelthen kalt den tilfeldige variabelen.

Tilfeldige variabeler med reell verdi

rediger

I dette tilfellet er observasjonsrommet et sett bestående av reelle tall. Husk at   er sannsynlighetsrommet. For reelt observasjonsrom er funksjonen   en tilfeldig variabel med reell verdi dersom  Denne definisjonen er et spesielt tilfelle av det overstående fordi settet   generer Borels σ-algebra på de reelle tallenes sett, og det er tilstrekkelig å sjekke målbarhet på hvilket som helst genererende sett. Her kan vi bevise målbarheten på dette genererende settet ved å bruke det faktum at .

Momenter

rediger

En tilfeldig variabels sannsynlighetsfordeling er ofte karakterisert av et lite antall parametere, som også har en praktisk tolkning. For eksempel er det ofte nok å vite hva dens "gjennomsnittlige verdi" er. Dette er fanget av det matematiske konseptet forventet verdi til en tilfeldig variabel, skrevet  , og er også kalt de første momentet. Vanligvis er ikke   lik  . Først når den "gjennomsnittlige verdien" er kjent kan man spørre hvor langt fra denne verdien verdiene til   vanligvis befinner seg, et spørsmål som blir besvart av variansen og sandardavviket til den tilfeldige variabelen.   kan intuitivt bli sett som et gjennomsnitt hentet fra en begrenset populasjon hvor medlemmene er bestemte evalueringer av  .

Matematisk er dette kjent som momentenes problem: for en gitt tilfeldig variabel  ' klasse, finn en samling   med funksjoner slik at de forventede verdiene   fullt karakteriserer den tilfeldige variabelen  ' fordeling.

Momenter kan kun bli definert for tilfeldige variablers funksjoner med reelle tall (eller komplekse etc.). Hvis den tilfeldige variabelen er i seg selv reell, så kan dens momenter bli tatt, som er tilsvarende momentene til den tilfeldige variabelens identitetsfunksjon  . Selv for ikke-reelle tilfeldige variabler kan derimot momentene bli hentet fra reelle funksjoner av disse variablene. For eksempel, for en kategorisk tilfeldig variabel   som kan ta de nominelle verdiene "rød", "blå" eller "grønn", kan den reelle funksjonen  bli konstruert; dette bruker Iverssonsklammer og har verdien 1 dersom   har verdien "grønn", ellers 0. Dermed kan denne funksjonens forventede verdi og andre momenter bli bestemt.

Tilfeldige variablers funksjoner

rediger

En ny tilfeldig variabel Y kan bli definert ved å tillegne en reell målbar funksjon   til utfallene av en reell tilfeldig variabel  , slik at  . Den kumulative fordelingsfunksjonen til   er da

 

Dersom funksjon   er invertibel (i.e.,   eksisterer) og er hverken økende eller synkende, så kan den forrige relasjonen bli utvidet til å få

 

Med den samme inverseringshypotesen til  , også ved å anta deriverbarhet, kan relasjonen mellom tetthetsfunksjonene bli funnet ved å derivere begge sider på funksjonen over med hensyn til   for å få

 

Dersom   ikke kan inverteres, men hver   antyder at på det meste et tellbart antall røtter (i.e., et avgrenset, eller tellbart uendelig, nummer   slik at  ), så kan den forrige relasjonen mellom tetthetsfunksjonene bli generalisert med

 

hvor  . Tetthetsformlene krever ikke at   øker.

Innen det målings-teoretiske er en aksiomatisk tilnærming til sannsynlighet dersom en tilfeldig variabel    og en målbar funksjon  , så vil også   være en tilfeldig variabel på  , siden de målbare funksjonenes komposisjon er også målbar. (Det er et unntak dersom   er et Lebesguemålbar.) Den samme prosedyren som tillater en til å få fra et sannsynlighetsrom   til   kan bli brukt til å få distribusjonen til  .

Eksempel 1

rediger

La   være en reell, kontinuerlig stokastisk variabel og la  .

 

Hvis  , så  , så

 

Hvis  , så

 

 

Eksempel 2

rediger

Anta at   er en tilfeldig variabel med en kumulativ fordeling

 

hvor   er et satt parameter. Vurder den tilfeldige variabelen   Så,

 

Det siste uttrykket kan bli utregnet i form av den kumulative distribusjonen til  , så

 
 
 
 

som er den kumulative fordelingsfunksjonen (cdf) til en eksponensialfordeling.

Eksempel 3

rediger

Anta at   er en tilfeldig variabel med en standard normalfordeling med tetthet

 

Vurder den tilfeldige variabelen  . Vi kan finne tettheten ved å bruke formelen over for å endre variablene:

 

I dette tilfellet er ikke endringen monotonisk, fordi for hver verdi av   er det to korresponderende verdier av   (en positiv og negativ). Dessuten, på grunn av symmetri, vil begge halvparter transformeres identisk i.e.,

 

Den inverse transformasjonen er

 

og dens derivat er

 

Så,

 

Dette er en kjikvadratfordeling med én frihetsgrad.

Tilfeldige variablers ekvivalens

rediger

Det er flere uliker måter tilfeldige variabler kan bli ansett å være ekvivalente. To tilfeldige variabler kan være like, nesten sikker likhet, eller like i fordeling.

I økende styrkegrad er den presise forestillingen av ekvivalens gitt under.

Likhet i fordeling

rediger

Hvis utvalgsrommet er en undergruppe av den reelle linjen er de tilfeldige variablene X og Y like i fordeling (skrevet  ) hvis de har de samme fordelingsfunksjonene:

 

For å være like i fordeling trenger ikke de tilfeldige variablene å bli definert på det samme sannsynlighetsrommet. To tilfeldige variabler som har lik momentgenererende funksjon har den samme fordelingen. Dette gir, for eksempel, en nyttig metode for å sjekke visse funksjoners likhet til tilfeldige variabler som er i.i.d.. Dessuten eksisterer den momentgenererende funksjonen kun for fordelinger som har en definert Laplacetransformasjon.

Nesten sikker likhet

rediger

To tilfeldige variabler X og Y er nesten sikkert like (skrevet  ) dersom, og kun dersom, sannsynligheten for at de er ulike er null:

 

For alle praktiske årsaker i sannsynlighetsteori er denne forestillingen av ekvivalens like sterk som faktisk likhet. Den er assosiert med den følgene avstanden:

 

hvor "ves sup" representerer det vesentlige supremum i målteoretisk forstand.

Likhet

rediger

Til sist er de to tilfeldige variablene X og Y like dersom de er like som funksjoner på deres målbare rom:

 

Konvergens

rediger

Et viktig tema innen matematisk statistikk består av å få konvergensresultater for visse tilfeldige variablers sekvenser; for eksempel store talls lov eller sentralgrenseteoremet.

Se også

rediger

Referanser

rediger
  1. ^ Blitzstein, Joe; Hwang, Jessica (2014). Introduction to Probability. CRC Press. ISBN 9781466575592. 
  2. ^ a b Steigerwald, Douglas G. «Economics 245A - Introduction to Measure Theory» (PDF). University of California, Santa Barbara. Besøkt 18. april 2018. 
  3. ^ Yates, Daniel S.; Moore, David S.; Starnes, Daren S. (2003). The practice of statistics : TI-83/89 graphing calculator enhanced (2nd ed utg.). New York: W.H. Freeman. ISBN 9780716747734. OCLC 48449912. 
  4. ^ Castañeda, L.; Arunachalam, V.; Dharmaraja, S. (2012). Introduction to Probability and Stochastic Processes with Applications. Wiley. s. 67. 
  5. ^ 1937-, Fristedt, Bert, (1997). A modern approach to probability theory. Boston: Birkhäuser. ISBN 3764338075. OCLC 34411688.