Innenfor matematikken betyr lineær regresjon at man ønsker å finne den lineære funksjonen hvis kurve/graf passer best med innsamlede data, som inneholder en eller annen statistisk feilkilde også kalt residual. Lineær regresjon brukes ofte for å lage prognoser.

Eksempel på en linje (rød) bygget ved hjelp av lineær regresjon


Gitte opplysninger og antagelser rediger

Man har gitt en mengde datapunkter på formen   hvor minst 2 xi er forskjellige og man ønsker å finne en funksjon   som på best mulig måte passer med de gitte datapunktene. For denne oppgaven formulerer man Gauss' minste kvadraters metode som følger:

Minste kvadraters prinsipp. [...] linjen skal trekkes gjennom de gitte punktene slik at summen av kvadratene av avstandene fra disse punktene til linjen minimeres, hvor avstanden måles i vertikalretningen (y-retningen).[1]

Funksjonen man søker antas å være lineær, hvilket betyr at den uttrykkes matematisk som

 

og det er koeffisientene ai som man ønsker å bestemme. Hvis man ønsker en rett linje betyr at alle koeffisientene unntatt a0 og a1 er 0.


Minste kvadraters metode for rett linje rediger

For n gitte datapunkter ønsker man å finne en linje på formen

 

Som angitt i minste kvadraters prinsipp ovenfor ønsker man å beregne

 

for alle j, og deretter bestemnme a0 og a1 slik at man minimaliserer summen av kvadratene av disse, dvs

 

Fra elementær analyse er det kjent at de nødvendige kravene for at dette er et bunnpunkt er

 

Ved å derivere uttrykket for q med hensyn på a0 og a1 (se detaljer i underavsnittet) kommer man til slutt frem til at regresjonslinjen har formelen

 

hvor

 

Teller og nevner i regresjonskoeffisienten til linjen kalles utvalgets kovarians

 

og variansen til x verdiene (merk at dette ikke er helt riktig da x er å betrakte som en ordinær og ikke tilfeldig variabel)

 


Utledning av formelen for regresjonslinjen rediger

Ved å utføre de to derivasjonene får man

 

Ved å dividere på 2 skrive ut hver sum for seg og stokke om på uttrykkene får man de såkalte normalligningene

 

Dette systemet av to ukjente har en determinant

 

som er ulik 0 på grunn av antakelsen om minst to forskjellige xi og garanterer derfor at løsningen eksisterer og er unik. Ved å dividere den første ligningen med n og omskriving ved hjelp av gjennomsnittsformlene får man   som sammen med   gir den ønskede regresjonskurven

 

Eliminasjonsmetoden gir uttrykket

 

Hvor godt passer linjen til punktene rediger

Når man har funnet den regresjonslinjen som passer best til punktene, bør man beregne hvor godt den passer. Det enkleste målet som er vanlig å benytte er korrelasjonskoeffisienten R2. En R2-verdi nær 1 (nær 100 %) angir at regresjonslinjen passer veldig bra, mens en verdi nær null angir at linjen ikke passer.[2] Pearsons korrelasjonskoeffisient er et annet mye brukt mål.[3]

Referanser rediger

  1. ^ E. Kreyszig – Advanced engineering mathematics, 8th edition, John Wiley & sons inc. 1999
  2. ^ A. H. Studenmund (1997). Using Econometrics: A Practical Guide. Addison-Wesley. s. 50-52, 414. ISBN 0-673-52486-8. 
  3. ^ Fred Wenstøp (1994). Statistikk og dataanalyse. Tano. s. 424. ISBN 82-518-2938-0.