########## MAURÍCIO TAKASHI COUTINHO WATANABE ########### Exercício 8 getwd() setwd("C:/Users/Maurício/Documents/aula8") ##### Galileu estava certo? # Utilizando os dados disponíveis no tutorial para verificação do melhor modelo (se o de 2° ou 3° grau) init.h = c(600, 700, 800, 950, 1100, 1300, 1500) h.d = c(253, 337, 395, 451, 495, 534, 573) mod2 <- lm(h.d~init.h+I(init.h^2)) mod3 <- lm(h.d~init.h+I(init.h^2)+I(init.h^3)) anova(mod2,mod3) # Um polinômio de 3° grau parece ser um modelo melhor do que o do de 2° grau tendo em vista que ele apresenta um menor valor de RSS. ##### Massa de Recém-Nascidos babies <- read.table("babies.txt",header=TRUE,sep="") babies babies <- babies[babies$bwt!="999",] babies <- babies[babies$gestation!="999",] babies <- babies[babies$parity!="9",] babies <- babies[babies$height!="99",] babies <- babies[babies$weight!="999",] babies <- babies[babies$smoke!="9",] babies <- babies[babies$age!="99",] babies babies$parity <- as.logical(babies$parity) babies$smoke <- as.logical(babies$smoke) # Calculando a função linear relacionando a massa do recém-nascido e cada variável mod.a <- lm(bwt~gestation, data=babies) mod.b <- lm(bwt~age, data=babies) mod.c <- lm(bwt~height, data=babies) mod.d <- lm(bwt~weight, data=babies) mod.e <- lm(bwt~parity, data=babies) mod.f <- lm(bwt~smoke, data=babies) anova(mod.a,mod.b,mod.c,mod.d, mod.e, mod.f) # o melhor modelo é aquele relaciona massa ao nascer e o tempo de gestação. Menor RSS!!! # Agora vamos adicionar o efeito de outras variáveis mod.g <- lm(bwt~gestation+age, data=babies) mod.h <- lm(bwt~gestation+height, data=babies) mod.i <- lm(bwt~gestation+weight, data=babies) mod.j <- lm(bwt~gestation+parity, data=babies) mod.k <- lm(bwt~gestation+smoke, data=babies) anova(mod.h,mod.i,mod.g,mod.j,mod.k) # Podemos perceber que a adição da variável smoke, melhora o modelo. # Vamos agora verificar se encontramos um modelo melhor adicionando as outras variáveis mod.l <- lm(bwt~gestation+smoke+age, data=babies) mod.m <- lm(bwt~gestation+smoke+weight, data=babies) mod.n <- lm(bwt~gestation+smoke+height, data=babies) mod.o <- lm(bwt~gestation+smoke+parity, data=babies) anova(mod.l,mod.m,mod.n,mod.o) # Podemos perceber que mesmo adicionando outras variáveis, não há um ganho muito significativo a ponto de justificar suas inclusões. # Neste caso o modelo que relaciona a massa dos recém nascidos ao tempo de gestação e o fato delas serem fumantes(mod.k) apresenta o melhor "custo-benefício".