Brz početak rada sa R: Dijagnosticiranje regresionog modela (28. Deo)

U prethodnom delu smo kreirali dve promenljive i korišćenjem lm() komande ocenili regresioni model, tretirajući jednu promenljivu zavisnom, a drugu nezavisnom. Ovde ih ponavljamo ponovo.

visina = c(176, 154, 138, 196, 132, 176, 181, 169, 150, 175)
težina = c(82, 49, 53, 112, 47, 69, 77, 71, 62, 78)

Sada ćemo naučiti kako dobiti neke dodatne dijagnostiče informacije o regresionom modelu. Kao i ranije ocenimo regresioni model.

lm(visina ~ težina)

Sada možemo koristiti nekoliko R dijagnostičkih grafika i statistike uticaja da bolje razumemo naš model. Ti dijagnostički grafici su sledeći:

  1. Reziduali prema ocenjenim vrednostima
  2. Q-Q grafici
  3. Grafici skale-lokacije
  4. Grafici Cook-ovog odstojanja.

Da bismo koristili R regresione grafike prvo ćemo oceniti regresioni model i sačuvati ga kao objekat, a potom ćemo kreirati prostor za crtanje dimenzija 2 x 2. Naposletku ćemo koristiti plot() komandu kod koje ćemo model tretirati kao argument.

model <- lm(height ~ bodymass)
par(mfrow = c(2,2))
plot(model)

Prvi grafik prikazuje reziduale u odnosu na ocenjene vrednosti. Ukoliko podaci nisu raspršeni, tj. Sve tačke leže na regresionoj liniji, tada će svaka tačka na prvom grafiku pasti na horizontalnu liniju. Crvena kriva je izglađena reprezentacija reziduala i u idealnom slučaju bi trebalo da bude relativno ravna i bliska horizontalnoj liniji. Drugim rečima ona ne bi trebalo da ukazuje na trend. Međutim, to nije slučaj sa našim podacima. Da zaključimo, prvi grafik (reziduali prema ocenjenim vrednostima) bi trebalo da ukazuje na potpuno ili blisko potpuno slučajnoj raspršenosti, no to nije slučaj na ovom grafiku.

Drugi grafik je kvantil-kvantil grafik (eng.Quantile-Quantile – Q-Q plot) reziduala. Ovaj grafik nam pomaže u proceni da li su reziduali normalno raspoređeni. U našem primeru, većina tačaka leži blizu isprekidane linije. Da su reziduali normalno raspoređeni tada bi sve tačke na ovom grafiku ležale blisko ovoj liniji. U realnosti, uvek će biti odstupanja, ali sva ona bi trebalo da budu mala. Da zaključimo, drugi grafik (normalni Q-Q grafik) će biti prava linija ukoliko su greške modela normalno raspoređene, ali u ovom slučaju tačke 4, 5 i 6 odstupaju od prave linije.

Treći grafik, skala-lokacija prikazuje kvadratni koren standarddizovanih reziduala (srednja vrednost nula i jedinična varijansa) prema ocenjenim vrednostima. Velike vrednosti ovih reziduala (kako pozitivnih tako negativnih) javljaju se pri vrhu grafika, dok su male vrednosti reziduala pri dnu. Crvena linija ukazuje na postojanje trenda u standardizovanim rezidualima. Ako je crvena linija približno horizontalna, tada se varijansa reziduala ne menja u većoj meri u zavisnosti od vrednosti nezavisne promenljive. Drugim rečima imamo slučaj homoskedastičnosti reziduala. Da zaključimo, treći grafik je sličan prvom i trebalo bi da ukazuje na slučajan raspored. Međutim, to nij slučaj sa našim grafikom.

Poslednji grafik prikazuje standardizovane reziduale prema meri uticaja (eng. Leverage). Za normalno raspoređene reziduale, standardizovani reziduali biće centrirani u nuli i simetrično raspoređeni. Mera uticaja meri u kom stepenu svaka tačka utiče na regresiju. Pošto regresiona prava prolazi kroz geometrijsko središte podataka, tačke koje leže dalje od geometrijskog središta imaju veći uticaj, i njihov uticaj se povećava ukoliko su tačke relativno izolovane (tj. nema mnogo tačka blizu posmatrane tačke). Dakle, mera uticaja ma koje tačke zavisi od udaljenosti od geometrijskog središta i od njene izolovanosti. Podaci koji su istovremeno nestandardne observacije (eng. outlier) i imaju veliku meru uticaja utiču i na nagib i na slobdni član regresionog modela. Na grafiku vidimo da tačka 4 ima veliku meru uticaja.

Poslednji grafik daje takođe Cook-ovo odstojanje, koje meri za koliko će se regresija promeniti ukoliko se tačka izostavi iz regresije. Cook-ovo odstojanje se povećava kada je mera uticaja velika. Kada su reziduali veliki, ma koja tačka udaljena od geometrijskog središta koja ima veliki residual izmeniće regresiju. U idealnom slučaju crvena izravnata linija ostaje blizu horizontalne iprekidane linije, i idealno ni jedna tačka nema veliku vrednost Cook-ovog odstojanja (tj. > 0.5). Niti jedan od ovih uslova su zadovoljeni u našem slučaju. Da zaključimo, poslednji grafik (Cook-ovo odstojanje) ukazuje na to koje tačke imaju najveći uticaj na regresiju (uticajne tačke). Vidimo da tačka 4 (ima veliku i meru uticaja i vrednost Cook-ovog odstojanja) ima značajan uticaj na model.

David

Dodatak: Korišćeni R kodovi

# Kreirati dve promenljive. 
visina = c(176, 154, 138, 196, 132, 176, 181, 169, 150, 175)
težina = c(82, 49, 53, 112, 47, 69, 77, 71, 62, 78)

# Oceniti regresioni model. 
lm(visina ~ težina)

# Sačuvati regresioni model kao objekat. 
model <- lm(visina ~ težina)

# Kreirati prostor za crtanje dimenzija 2 x 2 i nacrtati model. 
par(mfrow = c(2,2))
plot(model)