Os modelos lineares são a base para o entendimento de todos os modelos mais complexos que iremos abordar durante este curso. Caso ainda não tenha feito o roteiro Modelos Lineares Simples I, retorne a ele.
Os modelos lineares podem ser analisados através do método de partição de variância que aprendemos no roteiro de Princípios da Estatística Frequentista. Caso não tenha sedimentado bem o conceito, retorne ao roteiro e reveja a videaula, isso será importante para acompanhar o restante deste roteiro. Assim como na análise de variância clássica onde a preditora é uma variável categórica, podemos particionar a variação total existente nos dados nas porções explicadas e não explicadas por uma variável contínua preditora. Esse particionamento da variação no caso de um modelo linear simples é análogo ao que acontece em uma análise de variância tradicional, com a diferença que essa última só pode ser aplicada para variáveis preditoras categóricas.
A nossa próxima atividade usa os dados de crescimento de lagartas submetidas a dietas de folhas com diferentes concentrações de taninos presente no livro The R Book (Crawley, 2012). São apenas duas variáveis, growth, o crescimento da lagarta, e tannins, a concentração de taninos. O objetivo é verificar se há relação entre o crescimento da lagarta e a concentração de taninos da dieta.
Para o cálculo dos parâmetros da reta use as funções do Excel:
Predito pelo modelo
A predição do modelo é calculada pela equação da reta:
$$ \hat{y_i} = a + b * x_i $$
a = intercepto
b = inclinação
$x_i$ = valor de x da observação i
$\hat{y_i}$ = valor predito para a observação i
Variação Explicada
pelo modelo;
A partir da partição da variação dos desvios quadráticos explicado pela preditora (tannin
) e não explicado (residuos
) podemos montar uma tabela de anova da mesma forma que fizemos no tutorial Testes Clássicos: ANOVA
A tabela de anova tem as seguintes colunas e linhas:
soma quadrática
, graus de liberdade
, média quadrática
, F
e p-valor
Modelo
, Resíduo
, Total
$$SS_{TOTAL} = \sum_{i=1}^n (y_{i} - \bar{y})^2$$
$$SS_{res} = \sum_{i=1}^n (y_{i} - \hat{y_i})^2$$
$$SS_{TOTAL} = SS_{regr} + SS_{res} $$
$\bar{y}$ = média da variável resposta
$\hat{y_i}$ = valor estimado pelo modelo para $x_i$
Utilize no excel o valor 1- DIST.F(F, df1, df2, VERDADEIRO)3)
para o cálculo do p-valor sendo F o valor da estatística F calculada, df1
o grau de liberdade da regressão (normalmente 1
) e df2
o valor de graus de liberdade do cálculo dos desvios quadráticos médios dos resíduos (n - 2
) que é o número de observações menos dois graus relativos ao cálculo do intercepto e da inclinação.
$$ R^2 = \frac{SS_{regr}}{SS_{TOTAL}} $$
Vamos agora fazer a tabela de Anova
no R
lmLag01
, pelo menu ( Statistics
> Fit Models
> Linear Models
), selecione:growth
como variável resposta;tannin
como variável preditora;Models
> Hipothesis test
> Anova table
);tabela de ANOVA tipo I
onde a partição de variância é sequencial na ordem que os fatores são incluídos no modelo6);
Com esses mesmos dados podemos construir o modelo denominado mínimo ou nulo. No experimento de crescimento da lagarta, a hipótese nula é que tannin
não tem efeito em growth
. Podemos construir o modelo que representa esse cenário, criando o modelo em que growth
não tem preditoras.
lagarta
estão ativos no Rcmdr;lmLag00
, pelo menu ( Statistics
> Fit Models
> Linear Models
), selecione:growth
como variável resposta;1
,numeral um, como variável preditora7);lmLag00
no menu: Models
> Hipothesis tests
> ANOVA table
Não há muito a ser interpretado nos resultados do modelo mínimo, mas reconheça os valores que são estimados no resultado do modelo em Coefficients Estimate
. Note que neste modelo não há inclinação, pois não existe preditora. Na tabela de ANOVA verifique o valor do Sum Sq Residuals
e reconheça onde ele se encontra na tabela de ANOVA montada na planilha eletrônica.
O procedimento de partição da variação e calculo da razão entre variâncias pode ser generalizado e utilizada como critério para comparação de modelos aninhados. Modelo são considerados aninhados quando o mais complexo engloba todos as variáveis do mais simples, e por consequência, o modelo mais simples não pode explicar mais variação do que o mais complexo.
O modelo lmLag00
é aninhado ao modelo lmLag01
e por isso podemos fazer a comparação entre eles pelo critério de partição da variação como segue.
Comparando modelo com o mínimo (nulo) no Rcmdr
Model:
existem os modelos lmLag00
e lmLag01
;Models
> Hypothesis Test
> Compare two models
;lmLag00
e lmLag01
para comparação;lmLag01
;
Na comparação de modelos a razão de variância é relacionada ao quanto o modelo mais complexo explica da variação dos dados em relação ao modelo mais simples. De uma certa forma, a tabela de ANOVA
no R sempre apresenta a partição da variância da comparação de dois modelos aninhados. A tabela de ANOVA
de um modelo isolado é equivalente a comparar o modelo em questão com o modelo mínimo (nulo) correspondente. O entendimento desses conceitos é fundamental para utilizarmos a partição de variação como crítério para a tomada de decisão sobre qual modelo melhor explica nossos dados.
Nesse ponto, é desejável que tenha entendido que a partição da variância de um modelo é correspondente a compará-lo com o modelo mínimo (nulo), ou seja, quanta variância o modelo é capaz de explicar em relação ao modelo sem nenhuma preditora. Este modelo mínimo, representado por apenas um parâmetro, a média da variável resposta, apresenta toda a variação dos dados contida nos seus resíduos.
Diagnóstico do Modelo Linear
O diagnóstico do modelo linear é feito baseado nas premissas associadas ao modelo e para verificar a influência de cada observação na estimativa dos parâmetros do modelo. Os nossos dados precisam estar acoplados às premissas do modelo linear e não é desejável que o modelo seja definido apenas por uma ou por poucas observações influentes. As principais premissas dos modelos lineares são:
Além disso, avaliamos, para cada observação, sua alavancagem (leverage), definida pelo quanto a observação se afasta da média dos dados, e a sua influência (distância de Cook), definida como o quanto os parâmetros estimados são alterados ao se retirar esta observação dos dados.
Caso ainda tenha dúvidas sobre o diagnóstico dos modelos revisite o tutorial Regressão Linear para sedimentar o diagnóstico dos modelos lineares.
PARA ENTREGAR ANTES DO INÍCIO DA PRÓXIMA AULA