Brz početak rada sa R: Poboljšanje našeg regresionog modela (29. Deo)

U prethodnom delu smo kreirali dve promenljive, koristili lm() komandu da bismo ocenili regresioni model, a potom diagnosticirali regresiju korišćenjem plot() komande. Ponavljamo iste podatke.

visina = c(176, 154, 138, 196, 132, 176, 181, 169, 150, 175)
težina = c(82, 49, 53, 112, 47, 69, 77, 71, 62, 78)

Kao i prošli put ocenjujemo regresioni model korišćenjem lm(). Ovoga puta ocenjeni model ćemo sačuvati kao objekat M. Zaista – R nam to omogućava!

M <- lm(visina ~ težina)

Sada koristimo summary() komandu da bismo dobili korisne informacije o ocenjenom modelu.

summary(M)

p-vrednost našega modela je visoko značajna (aproksimativno 0.0004) i imamo dobru objašnjenost modelom (preko 81% varijabiliteta promenljive visina je objašnjena promenljivom težina).

U prethodom delu smo videli da tačke 2, 4, 5 i 6 imaju veliki uticaj na model. Sada ćemo pogledati kako ponovo oceniti model nakon što smo izostavili jednu od tačaka. Neka smo na primer izostavili tačku 6. Uočiti korišćenu sintaksu koja uključuje subset() komandu unutar lm() komande i izostavljanje tačke korišćenjem sintakse!= koja označava “nije jednaka sa”. Ova sintaksa daje instrukcije R da oceni regresioni model kod koga su svi podaci uključeni osim tačke 6.

M2 <- lm(visina ~ težina, subset=(1:length(visina)!=6))
summary(M2)

Pošto smo izostavili jednu observaciju izgubili smo jedan stepen slobode (od 8 na 7) ali naš model bolje objašnjava varijacije u promenljivoj visina (tj. koeficijent determinacije je sa 0.81 porastao na 0.85). Na osnovu ovog pokazatelja naš model se poboljšao, ali naravno, tačka 6 može biti sasvim legitimna observacija i stoga bi trebalo da se zadrži sa ostalim podacima. Da li je izostaviti ili zadržati je pitanje procene i zavisi od više faktora.

Naši diagnostički grafici su sledeći:

Poredeći ih sa diagnostičkim graficima u prethodnom delu, vidimo da se oni nisu značajnije promenili. Drugim rečima, izostavljanje tačke 6 nije poboljšalo naš regresioni model.

David

Dodatak: Korišćeni R kodovi

# Kreirati dve promenljive. 
visina <- c(176, 154, 138, 196, 132, 176, 181, 169, 150, 175) 
težina <- c(82, 49, 53, 112, 47, 69, 77, 71, 62, 78) 

# Sačuvati regresioni model kao objekat. 
M <- lm(visina ~ težina) 

# Dobiti korisnu informaciju o ocenjenom regresionom modelu. 
summary(M) 

# Sačuvati regresioni model kao objekat nakon uklanjanja tačke 6. 
M2 <- lm(visina ~ težina, subset=(1:length(visina)!=6))
 
# Dobiti korisnu informaciju o novom ocenjenom regresionom modelu. 
summary(M2) 

# Kreirati prostor za crtanje dimenzija 2 x 2 i nacrtati model. 
par(mfrow = c(2,2)) 
plot(M2)