Lineær regresjon

Innenfor matematikken betyr lineær regresjon at man ønsker å finne den lineære funksjonen hvis kurve/graf passer best med innsamlede data, som inneholder en eller annen statistisk feilkilde også kalt residual. Lineær regresjon brukes ofte for å lage prognoser.

Eksempel på en linje (rød) bygget ved hjelp av lineær regresjon

Gitte opplysninger og antagelser rediger

Man har gitt en mengde datapunkter på formen $(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})$ hvor minst 2 x_i er forskjellige og man ønsker å finne en funksjon $y=f(x)$ som på best mulig måte passer med de gitte datapunktene. For denne oppgaven formulerer man Gauss' minste kvadraters metode som følger:

Minste kvadraters prinsipp. [...] linjen skal trekkes gjennom de gitte punktene slik at summen av kvadratene av avstandene fra disse punktene til linjen minimeres, hvor avstanden måles i vertikalretningen (y-retningen).^[1]

Funksjonen man søker antas å være lineær, hvilket betyr at den uttrykkes matematisk som

f(x)=\sum _{i=0}^{n}a_{i}x^{i}=a_{0}+a_{1}x+\dots +a_{n}x^{n}

og det er koeffisientene a_i som man ønsker å bestemme. Hvis man ønsker en rett linje betyr at alle koeffisientene unntatt a₀ og a₁ er 0.

Minste kvadraters metode for rett linje rediger

For n gitte datapunkter ønsker man å finne en linje på formen

$y=a_{0}+a_{1}x$

Som angitt i minste kvadraters prinsipp ovenfor ønsker man å beregne

$|y_{j}-(a_{0}+a_{1}x_{j})|$

for alle j, og deretter bestemnme a₀ og a₁ slik at man minimaliserer summen av kvadratene av disse, dvs

$\min _{a_{0},a_{1}}q=\left(\sum _{j=1}^{n}(y_{j}-a_{0}-a_{1}x_{j})^{2}\right)$

Fra elementær analyse er det kjent at de nødvendige kravene for at dette er et bunnpunkt er

${\frac {\partial q}{\partial a_{0}}}=0\quad og\quad {\frac {\partial q}{\partial a_{1}}}=0$

Ved å derivere uttrykket for q med hensyn på a₀ og a₁ (se detaljer i underavsnittet) kommer man til slutt frem til at regresjonslinjen har formelen

$y-{\bar {y}}=k_{1}(x-{\bar {x}})$

hvor

${\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i},\quad {\bar {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i},\quad og\quad k_{1}={\frac {s_{xy}}{s_{x^{2}}}}$

Teller og nevner i regresjonskoeffisienten til linjen kalles utvalgets kovarians

$s_{xy}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})={\frac {1}{n-1}}\left[\sum _{i=1}^{n}x_{i}y_{i}-{\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}\right)\left(\sum _{j=1}^{n}y_{j}\right)\right]$

og variansen til x verdiene (merk at dette ikke er helt riktig da x er å betrakte som en ordinær og ikke tilfeldig variabel)

$s_{x}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {1}{n-1}}\left[\sum _{i=1}^{n}x_{i}^{2}-{\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}\right)^{2}\right]$

Utledning av formelen for regresjonslinjen rediger

Ved å utføre de to derivasjonene får man

${\frac {\partial q}{\partial a_{0}}}=-2\sum _{i=1}^{n}(y_{i}-a_{0}-a_{1}x_{i})\quad og\quad {\frac {\partial q}{\partial a_{1}}}=-2\sum _{i=1}^{n}x_{i}(y_{i}-a_{0}-a_{1}x_{i})$

Ved å dividere på 2 skrive ut hver sum for seg og stokke om på uttrykkene får man de såkalte normalligningene

${\begin{array}{c}a_{0}n+a_{1}\sum x_{i}=\sum y_{i}\\a_{0}\sum x_{i}+a_{1}\sum x_{i}^{2}=\sum x_{i}y_{i}\end{array}}$

Dette systemet av to ukjente har en determinant

$\left|{\begin{array}{cc}n&\sum x_{i}\\\sum x_{i}&\sum x_{i}^{2}\end{array}}\right|=n\sum x_{i}^{2}-\left(\sum x_{i}\right)^{2}=n(n-1)s_{x}^{2}=n\sum (x_{i}-{\bar {x}})^{2}$

som er ulik 0 på grunn av antakelsen om minst to forskjellige x_i og garanterer derfor at løsningen eksisterer og er unik. Ved å dividere den første ligningen med n og omskriving ved hjelp av gjennomsnittsformlene får man $a_{0}={\bar {y}}-a_{1}{\bar {x}}$ som sammen med $y=a_{0}+a_{1}x$ gir den ønskede regresjonskurven

$y-{\bar {y}}=a_{1}(x-{\bar {x}})$

Eliminasjonsmetoden gir uttrykket

$a_{1}=k_{1}={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{j}}{n(n-1)s_{x}^{2}}}$

Hvor godt passer linjen til punktene rediger

Når man har funnet den regresjonslinjen som passer best til punktene, bør man beregne hvor godt den passer. Det enkleste målet som er vanlig å benytte er korrelasjonskoeffisienten R². En R²-verdi nær 1 (nær 100 %) angir at regresjonslinjen passer veldig bra, mens en verdi nær null angir at linjen ikke passer.^[2] Pearsons korrelasjonskoeffisient er et annet mye brukt mål.^[3]

Referanser rediger

^ E. Kreyszig – Advanced engineering mathematics, 8th edition, John Wiley & sons inc. 1999
^ A. H. Studenmund (1997). Using Econometrics: A Practical Guide. Addison-Wesley. s. 50-52, 414. ISBN 0-673-52486-8.
^ Fred Wenstøp (1994). Statistikk og dataanalyse. Tano. s. 424. ISBN 82-518-2938-0.

[1] E. Kreyszig – Advanced engineering mathematics, 8th edition, John Wiley & sons inc. 1999

[UsingEconometrics-2] A. H. Studenmund (1997). Using Econometrics: A Practical Guide. Addison-Wesley. s. 50-52, 414. ISBN 0-673-52486-8.

[3] Fred Wenstøp (1994). Statistikk og dataanalyse. Tano. s. 424. ISBN 82-518-2938-0.

[1]

[2]

[3]