LOESS og LOWESS (fra engelsk: locally weighted scatterplot smoothing) er to beslektede metoder for ikke-parametrisk regresjon som kombinerer flere regresjonsmodeller i en k-nærmeste-nabo basert metamodell. «LOESS» er en senere generalisering av LOWESS, selv om det er ikke et riktig akronym, kan det forstås som om det står for «LOcal regrESSion».[1]

LOESS-kurve tilpasset målepunkter fra en sinusbølge med jevn støy i målingene. Den resulterende LOESS-kurven er tilnærmet lik den opprinnelige sinusbølge

LOESS og LOWESS bygger dermed på «klassisk» metoder, som for eksempel lineær og ikke-lineær minste kvadraters metode. De benyttes for situasjoner der den klassiske fremgangsmåten ikke fungerer godt eller ikke kan brukes effektivt uten mye arbeidskraft. LOESS kombinerer mye av den enkle metoden fra  minste kvadraters metode med fleksibiliteten som ikke-lineær regresjon gir. Den gjør metoden ved å anvende  enkle modeller for å lokalisert delsett av dataene til å bygge opp en funksjon som beskriver den deterministiske delen av variasjonen i data, punkt for punkt. En av fordelene med denne metoden er at det  ikke er nødvendig å angi en global funksjon av noe slag for å tilpasse en modell til data. Det er nok bare å tilpasse segmenter av dataene.

Kompromisset for disse fordelene er flere beregninger. Fordi metoden er så arbeidsintensiv ville LOESS vært praktisk talt umulig å bruke i den tiden da minste kvadraters metode ble utviklet. De fleste andre moderne metoder for prosessmodellering er lik LOESS i denne sammenheng. Disse metodene ble bevisst utviklet for å brukes sammen med dagens datamaskiner, dermed kan fordeler oppnås som før ville vært vanskelige.

En jevn kurve gjennom et sett av datapunkter som oppnås med denne statistiske teknikken kalles en Loess-kurve, spesielt når hver glattet verdi er gitt ved et vektet kvadratisk minste kvadraters regresjon over spennet i verdier på y-aksens spredningsplott kriteriet variabel. Når hver glattet verdi er gitt ved en vektet lineær minste kvadraters regresjon over intervallet, er dette kjent som en Lowess-kurve, men noen omtaler Lowess og Loess som synonymer.

Definisjonen av en LOESS-modell rediger

LOESS er en metode som opprinnelig ble foreslått av Cleveland i 1979. Metoden ble videreutviklet av Cleveland og Devlin i 1988 og betegner en metode også kjent som lokalt vektet polynomisk regresjon. Ved hvert punkt i utvalget av datasettet blir et polynom av lavere grade tilpasset  et delsett av dataene, med den såkalte forklarende variable (fra engelsk: explanatory variable) som er verdier nær det punktet der responsen blir beregnet. Polynomet er tilpasset med vektet minste kvadraters metode, noe som gir større verdi til punkter i nærheten av punkter der responsen blir beregnet og mindre verdi til punkter lenger unna. Verdien av regresjonsfunksjonen for punktet er da oppnådd ved å evaluere det lokale polynomet med forklarende variabelverdier for det datapunktet. LOESS-tilpassning er fullført når regresjonsfunksjonens verdier har blitt beregnet for hver av datapunktene. Mange av detaljene i denne metoden, slik som orden av polynomets modell og vekt, er fleksible. Den spenner fra et valg for hver del av metoden og typiske standardverdier er kort omtalt i de neste avsnittene.

Lokalisert delsett av data rediger

Delsettav dataene som er brukt for hvert tilpasset punkt vektet med minste kvadraters metode i LOESS er bestemt av en nærmeste naboalgoritme. Det oppgis en brukerspesifisert verdi som prosedyren benytter, kalt båndbredde eller glatteparameter som avgjør hvor mye av dataene som brukes for å passe med hvert av de lokale polynomene. Utjevningsparameteren   er brøkdel av det totale antall datapunkter n som brukes ved hver lokale tilpassing. Delsettet av dataene som er brukt til hver vektet minste kvadraters tilpasning omfatter dermed   punkter (avrundet til neste største heltall) som forklarende variabels verdier som er nærmest til det punktet hvor responsen blir beregnet.[2]

Siden et polynom av grad n krever minst (n+1) punkter for en tilpassing, må glatteparameteren   være mellom   og 1, der   betegner ordene av det lokale polynomet.

  kalles glatteparameter fordi den styrer fleksibilitet av LOESS-regresjonsfunksjonen. Store verdier for   produsere glatte funksjoner som vrikker minst på respons av svingninger i dataene. Desto mindre   er, jo nærmere vil regresjonsfunksjonen være i overensstemmelse med dataene. Bruk av for liten verdi for glatteparameteren er ikke ønskelig, fordi regresjonsfunksjonen etterhvert vil begynne å gi tilfeldige feil i data. Nyttige verdier for glatteparameteren ligger vanligvis i området 0,25 til 0,5 [trenger referanse] for de fleste LOESS-programmer.

Grad av lokale polynomer rediger

De lokale polynomer passer til hvert delsett av dataene er nesten alltid av første og andre grad. De er enten lokalt lineære (i forstand av å være en rett linje) eller lokalt kvadratisk. Ved hjelp av et polynomet av nulte grad konverterer LOESS over til et vektet glidende gjennomsnitt. Polynomer av høyere grad ville fungere i teorien, men gi modeller som ikke er virkelig i forhold til intensjonen til LOESS. LOESS er basert på ideer som at en funksjon kan være godt rundet i en lite nabolag med en lav-order polynom og at enkle modeller som kan passe til data enkelt. Høy grad polynomer ville har en tendens til overtilpassing av dataene i hver undergruppe og er numerisk ustabile, slik at nøyaktige beregninger blir vanskelig.

Vektfunksjon rediger

Som nevnt ovenfor gir vektfunksjonen mest vekt på å få datapunktene nærmeste punktet for estimering og minst vekt på å datapunkter som er lengst unna. Bruk av vekting er basert på ideen om at punkter i nærheten av hverandre i den forklarende variabelens plass er mer sannsynlig å være relatert til hverandre på en enkel måte, enn punkter som er lenger fra hverandre. Etter denne logikken, punkter som er egnet til å følge den lokale modellen best påvirker lokale modellparameter estimater mest. Punkter som er mindre sannsynlig å faktisk svarer til den lokale modellen har mindre innflytelse på den lokale modell parameter estimater.

Den tradisjonelle vektfunksjonen brukes for LOESS er tri-kube vektfunksjon,

 

der x er avstanden fra et gitt data fra punkt til punkt på kurven er skalert til å ligge i området fra 0 til 1.

Imidlertid kan enhver vektfunksjon som tilfredsstiller egenskapene som er oppført av Cleveland (1979) også brukes. Vekten til et bestemt punkt i enhver lokalisert delsett av data innhentes ved å evaluere vektfunksjon med hensyn på avstanden mellom det punktet og punktet for estimering, etter skalering avstanden slik at den maksimale absolutte avstanden over alle punktene i delsett av data er nøyaktig ett.

Fordeler med LOESS-metoden rediger

Som nevnt ovenfor er den største fordelen LOESS har over mange andre metoder, det faktum at den ikke krever spesifikasjon av en funksjon for å tilpasse en modell til alle data i utvalget. I stedet kan en bare tilordne glatteparameteren en verdi og graden for det lokale polynom. I tillegg er LOESS en veldig fleksibel metode, noe som gjør den ideelt for modellering av komplekse prosesser der det ikke eksisterer teoretiske modeller. Disse to fordelene kombinert med enkelhet av metoden gjør at LOESS er en av de mest attraktive av moderne regresjonmetoder for programmer som passer inn i den generelle rammen av minste kvadraters regresjon, men som har en kompleks deterministisk struktur.

Selv om den er mindre tydelig enn for noen av de andre metodene som er relatert til lineær minste kvadraters regresjon, LOESS har også de fleste av fordelene disse andre prosedyrene har. De viktigste av disse er en teori for å beregne usikkerhet for prediksjon og kalibrering. Mange andre tester og prosedyrer som benyttes for validering av minste kvadraters modeller kan også utvides til å bli LOESS-modeller[trenger referanse].

Ulemper med LOESS-metoden rediger

LOESS gjør mindre effektiv bruk av data enn andre minste kvadraters metoder. Det krever ganske stor, tett samplede datasett for å lage gode modeller. Dette er fordi LOESS baserer seg på lokal datastruktur når den utfører den lokale tilpasningen.

En annen ulempe med LOESS er det faktum at den ikke gir en regresjonsfunksjon som er lett representert ved en matematisk formel. Dette kan gjøre det vanskelig å videreformidle resultatene av en analyse til andre. For å overføre regresjonsfunksjonen til andre må de få både de data som og programvaren som er benyttet for LOESS-beregningen. I ikke-lineære regresjon, på den annen side, er det bare nødvendig å skrive ned en funksjonell form for å gi anslag for de ukjente parametre og estimert usikkerhet. Avhengig av programmet, kan dette enten være en stor eller en liten ulempen ved hjelp av LOESS.

Referanser rediger

  1. ^ «John Fox, Nonparametric Regresjon i R: Vedlegg til En R-Ledsager til Anvendt Regresjon, 2. utgave, revidert desember 2010» (PDF). Arkivert fra originalen (PDF) 10. mai 2017. Besøkt 19. juni 2017. 
  2. ^ NIST, "LOESS (aka LOWESS)", kapittel 4.1.4.4, NIST/SEMATECH e-Håndbok av Statistiske Metoder (tilgang til 14 April 2017)

Litteratur rediger

Eksterne lenker rediger