En blandet modell er en statistisk modell som inkluderer både faste og tilfeldige effekter. Konvensjonelle lineære regresjonsmodeller antar at observasjonene er uavhengige fra hverandre og identisk fordelte, mens blandede modeller tillater korrelasjon innad i klynger. Blandede modeller håndterer manglende data på en robust måte, og foretrekkes derfor ofte fremfor tradisjonelle metoder som ANOVA for repeterte målinger. Det kan være vanskelig å trekke en tydelig skillelinje mellom hva som regnes som faste og tilfeldige effekter, og i praksis kan dette avhenge av forskningsspørsmålet. En vanlig brukt definisjon er at faste effekter er karakteristikker ved en hel populasjon som en gjør vil inferens på, mens nivåene til en tilfeldig effekt ses på som et tilfeldig utvalg fra en større populasjon av verdier.[1]

Motivasjon rediger

Effekter på klyngenivå kan i prinsippet også estimeres ved bruk av faste effekter i en konvensjonell lineær modell, men denne framgangsmåten har flere svakheter. En slik modell vil for det første estimere parametre for hver klynge, som sannsynligvis ikke er interessante - både fordi de ikke vil kunne generaliseres til å si noe om klynger som ikke var med i studien, og fordi det potensielt store antallet parametre "forbruker" frihetsgrader i modellen. I motsetning til dette vil en blandet modell kun estimere varianskomponentene, som, avhengig av kovariansstruktur og antall klynger, kan være betraktelig færre. Bruken av faste effekter for å estimere klyngeffekter vil ofte også møte problemer med identifiserbarhet - hvis klyngene er konfundert med en kategorisk variabel (individer i en studie har for eksempel kun fått en type behandling), er det mulig å legge til og trekke fra et vilkårlig tall fra regresjonskoeffisientene og ende opp med identiske prediksjoner. For å unngå denne situasjonen, må man introdusere noen avgrensninger (constraints).[2]

Definisjon rediger

En vanlig parametrisering av en blandet modell med matrisenotasjon er

 

Der

  •   er den observerte responsvariabelen, med forventning  
  •   er designmatrisen for de faste effektene
  •   er en vektor med faste regresjonskoeffisientene
  •   er designmatrisen for de tilfeldige effektene
  •   er en vektor med de tilfeldige koeffisientene, med forventning  , og varians-kovarians-matrise  
  •   er en vektor med residualene, med forventning  , og varians-matrise  

Som et alternativ til å skrive modellen som én likning på denne måten, kan en også skrive modellen på klyngenivå, der indeks   refererer til klyngen, og hver klynge har   observasjoner:

 

Dette fordi observasjoner på tvers av   skal være uavhengige, og fordi   og dermed kan bli svært stor.[3]

Korrelasjon og varians rediger

Et mål på hvor korrelerte observasjonene innad i en klynge er, er intraklasse-korrelasjon. For en enkel blandet modell med tilfeldige konstantledd, er observasjoner   fra den samme klyngen   korrelert med følgende korrelasjonskoeffisient:

 

Der

  •   refererer til variansen mellom ulike klynger
  •   refererer til variansen innad i klyngene

Altså øker korrelasjonen innad i klyngene med økende variasjon mellom klyngene. Hvis  , er det ingen variasjon mellom ulike klynger og modellen tilsvarer en enkel lineær regresjonsmodell. Typisk er en mer interessert i variansen til en tilfeldige effekten på tvers av klynger, enn størrelsen/retningen på de enkelte klyngeeffektene. Er variansen mellom klynger stor for en fast effekt, kan det tyde på at det er riktig å inkludere en tilfeldig effekt. Hvis korrelasjonen   er stor, vil det også bety at den effektive utvalgsstørrelsen er mindre enn  .[4]

Mer generelt kan korrelasjonen mellom to observasjoner   og   i samme klynge skrives som[5]

 

Både   og   kan bestemmes for å håndtere ulike korrelasjonsstrukturer i data. Dette vil si at det er en struktur i korrelasjonen mellom observasjonene i en klynge, for eksempel at observasjoner som ligger nært hverandre i tid eller rom er mer korrelerte enn observasjoner som er fjernt fra hverandre. En ustrukturert korrelasjonsmatrise legger ingen begrensninger på parametrene, men øker dermed antallet parametre som må estimeres. Spesielt for   brukes derfor ofte en av følgende mer avgrensede korrelasjonsmatriser:

  • Diagonal: Impliserer at det ikke er noen korrelasjon mellom residualene i samme klynge.
 
  • Sammensatt symmetrisk ("compound symmetric"): Impliserer at det er en konstant korrelasjon mellom residualene.
 
  • Ulike former autoregressive (AR) strukturer, der korrelasjon modelleres som en funksjon av avstanden mellom observasjonene. Denne strukturen antar at avstanden mellom naboobservasjoner er konstant. En første-ordens (AR(1)) matrise vil se slik ut:
 

Estimering rediger

Maximum likelihood rediger

En blandet modell kan forenkles ved å omformuleres til en marginal modell

 

Der

  •  
  •  .

Siden parameter-vektoren   ikke er kjent, må en bruke Maximum likelihood for å estimere denne. Likelihood-funksjonen er

 

En forenkling som gjør utregningen raskere, er å i stedet bruke profil-likelihooden. Dette er en generell metode som fungerer ved å partisjonere vektoren med ukjente parametre   i to deler  , og så velge en verdi for   og maksimere likelihooden med hensyn på  . Dette er en spesielt passende metode å bruke i denne sammenhengen, fordi maximum likelihood-estimatene for   og   er enkle å regne ut hvis en kjenner  . Disse kan dermed defineres som implisitte funksjoner av  , slik at profil-likelihooden blir

 

der   maximum likelihood-estimatet for   for en gitt  , og   er det tilhørende estimatet på  . En kan dermed behandle   som en funksjon som kun avhenger av   og bruke numerisk optimering for å finne verdien av   som maksimerer  .[2] Vanligvis brukes EM-algoritmen, Newton-Raphson-metoden eller en kombinasjon av disse. EM-algoritmen fungerer ved å ta utgangspunkt i sannsynlighetsfordelingen til   for det nåværende estimatet for  , for å deretter finne den verdien av   som maksimerer forventningen til log-likelihooden. Newton-Raphson-metoden fungerer ved å bruke gradienten til log-likelihooden for å finne neste estimat for theta.

Begrenset sannsynlighetsmaksimering rediger

Begrenset sannsynlighetsmaksimering (restricted maximum likelihood): Et generelt problem for maximum likelihood-estimatorer av varianskomponentene, er at de er forventningsskjeve, som kan ses ved uttrykket

 

Dette betyr at de vil undervurdere variansen ved økende antall parameter  . For å komme seg rundt dette, brukes det ofte en alternativ metode kalt REML (REstriced Maximum Likelihood). Denne finner et skalert gjennomsnitt av likelihood-funksjonen over alle verdier av  . For balanserte data gir REML forventningsrette estimat for   og  .

 

Etter en har funnet varians-komponentene i  , kan en estimere de faste parametrene i  .

For store utvalg, gir ML og REML tilnærmet like resultater. For små utvalg med balanserte data, gir REML bedre estimat fordi den er forventningsrett. For små utvalg med ubalanserte data, vil både ML og REML gi upresise estimat.[3]

Hypotesetesting/Inferens rediger

Hypotesetesting og inferens foregår vanligvis for de faste effektene, og er presise for balanserte design. En lineær blandet modell er balansert hvis alle   er like, og alle designmatrisene   er like. En modell med tilfeldige koeffisienter er balansert hvis i tillegg alle designmatrisene   er like. Dette fordi estimatene   og   da er lik estimatene   og  .[3]

Frihetsgrader rediger

For T- og F-test må en regne ut frihetsgrader for å tolke observatoren. Dette blir fort komplisert for ubalanserte design, generaliserte lineære blandede modeller (GLMM) eller kryssede tilfeldige effekter, men for balanserte, hierarkiske modeller er det mulig å regne ut nøyaktig[6]:

 
  • Der   er "denominator degrees of freedom", eller nevner-frihetsgrader
  •   er det totale antall grupper på nivå  . Inneholder modellen et konstantledd er  , hvis ikke er  , mens  .
  •   er antallet grupper på nivået over
  •   er summen av "numerator degrees of freedom"/teller-frihetsgrader for koeffisienter estimert på nivå  .

Formelen definerer nivået en koeffisient estimeres på avhengig av om den er "innenfor" eller "utenfor" det aktuelle nivået. En variabel er innenfor hvis verdien kan forandre seg innenfor et gitt nivå av klyngefaktoren, og utenfor hvis verdien ikke kan forandre seg. Et eksempel kan illustrere formelen: Hvis man forholder seg til et datasett med   observasjoner,   nivå,   faste koeffisienter estimert på nivå   og   grupper, blir da frihetsgradene  .

T-test rediger

T-testen tester hypotesen   mot den alternative hypotesen  . T-observatoren er definert som   Observatoren følger da Students T-fordeling med frihetsgrader bestemt av nivået av klyngevariabelen der regresjonskoeffisienten er estimert.

F-test rediger

F-testen tar utgangspunkt i lineære hypoteser   og  , der   er en valgt matrise for den lineære hypotesen. F-observatoren er definert som

 

F følger da en F-fordeling med frihetsgrader bestemt av rangen til matrisen   og klyngenivået.

Sannsynlighetskvotetest rediger

Hvis   refererer til likelihood-funksjonen til en referansemodell med   parametre og   refererer til likelihood-funksjonen til en redusert modell med   parametre, er sannsynlighetskvotetesten, eller likelihood ratio-testen, definert som[2]

 

Et viktig poeng er at sannsynlighetskvotetester for å teste faste effekter forutsetter at modellene som sammenlignes er estimert med maximum likelihood. Omvendt, så forutsetter sannsynlighetskvotetester for tilfeldige effekter at modellene som sammenlignes er estimert med restricted maximum likelihood.

Sannsynlighetskvotetester der en vil teste om en tilfeldig effekt kan utelukkes fra modellen krever en ytterligere justering, da den tilfeldige effekten i denne situasjonen er på grensen til parameterrommet. Dette vil si at, i motsetning til situasjonen for faste effekter der en tester   mot  , tester en   mot  , da   per definisjon er et positivt tall. Hvis en tester om en kan utelukke én tilfeldig effekt, følger testobservatoren da  .[4] I praksis anbefales det å se på p-verdier fra slike tester som unøyaktige, slik at kun svært store eller små verdier brukes til å beholde eller forkaste nullhypotesen.[2]

Referanser rediger

  1. ^ Searle, S. R. (Shayle R.) (2006). Variance components. Hoboken, NJ: Wiley. ISBN 0-470-00959-4. OCLC 67769392. 
  2. ^ a b c d Wood, Simon N.,. Generalized additive models : an introduction with R (Second edition utg.). Boca Raton. ISBN 978-1-4987-2833-1. OCLC 961213892. 
  3. ^ a b c Demidenko, Eugene. Mixed models : theory and applications with R (Second [edition] utg.). Hoboken. ISBN 978-1-118-59299-1. OCLC 835118592. 
  4. ^ a b Zuur, Alain F., (2009). Mixed effects models and extensions in ecology with R. New York: Springer. ISBN 978-0-387-87458-6. OCLC 318545289. 
  5. ^ Østgård, Eirin Tangen (2011). Statistical Modeling and Analysis of Repeated Measures, using the Linear Mixed Effects Model. Norges tekniske-naturvitenskapelige universitet. 
  6. ^ Pinheiro, José C.; Bates, Douglas. Mixed-effects models in S and S-PLUS. New York. ISBN 978-0-387-22747-4. OCLC 54860997.