Ferramentas do usuário

Ferramentas do site


cursos:planeco:roteiro:08b-lmii_rcmdr

Modelos Lineares Simples II

Os modelos lineares são a base para o entendimento de todos os modelos mais complexos que iremos abordar durante este curso. Caso ainda não tenha feito o Modelos Lineares Simples I, retorne a ele.

Tabela de Anova de uma Regressão

Os modelos lineares podem ser analisados através do método de partição de variância que aprendemos no roteiro de Testes Clássicos. Caso não tenha sedimentado bem o conceito, retorne ao roteiro e reveja a videaula, isso será importante para acompanhar o restante deste roteiro. Assim como na análise de variância clássica, podemos particionar a variação total existente nos dados de uma variável preditora contínua nas porções explicadas e não explicadas pelo modelo linear. Assista ao vídeo abaixo para entender como se dá o particionamento da variação no caso de um modelo linear simples e como essa partição é análoga ao que acontece em uma análise de variância.

Agora, vamos utilizar os dados do modelo II que simulamos (dp = 4) no tutorial do tópico simulando_dados do roteiro anterior e criar novamente o modelo linear no Rcmdr1).

Tabela de Anova do LM

  • confira se o modelo está ativo. Isso deve ser checado na caixa “Model” que fica no canto superior direito da tela do Rcommander.
  • vá ao menu Models > Hypothesis Test > ANOVA table…
  • marque a opção: Sequential (“Type I”)

RcmdrAnova.png

  • copie o resultado da tabela de ANOVA
  • interprete o resultado da tabela

Comparando com Modelo Nulo

O modelo gerado e seu resultado, apresentado na tabela de partição de variância, nada mais é do que uma comparação com o modelo nulo ou mínimo 2). A tabela de Anova de um modelo isolado é equivalente a comparar o modelo em questão com o modelo nulo. Para verificarmos isso, vamos comparar o resultado da tabela de anova do modelo com uma tabela de anova que compara o modelo com o modelo mínimo, sem preditoras. O entendimento desse conceito será fundamental para entendermos a comparação de modelo por partição de variância, interpretando a tabela de ANOVA na comparação de dois modelos. Assista ao video abaixo com a explicação sobre este conceito.

Criando o modelo mínimo (nulo) no Rcmdr

  • monte um novo modelo, chamado “mod0” ( Statistics > Fit Models > Linear Models )
  • como variável resposta use y1
  • no lugar da preditora coloque o valor 1
  • interprete o resultado desse modelo
  • compare o mod0 com o mod1 ( Models > Hypothesis Test > Compare two models… )
  • compare esse resultado com a tabela de ANOVA do modelo mod1

Nesse ponto, é desejável que tenha entendido que a partição da variância de um modelo é correspondente a compará-lo com o modelo nulo, ou seja, quanta variância o modelo é capaz de explicar em relação ao modelo nulo. Esse modelo nulo, representa o modelo mais simples com a variação total dos dados e é representado por apenas um parâmetro, a média da variável resposta.

  O nosso próximo exercício usa os dados de crescimento de lagartas submetidas a dietas de folhas com diferentes concentrações de taninos. São apenas duas variáveis, growth, o crescimento da lagarta, e tannins, a concentração de taninos. O objetivo é verificar se há relação entre o crescimento da lagarta e a concentração de taninos da dieta.

Desvio Quadrático Total

  • baixe o arquivo regression.txt;
  • abra o arquivo no Excel;
  • calcule a média de crescimento das lagartas;
  • calcule o valor de desvio total dos dados (o crescimento observado menos a média do crescimento);
  • calcule o desvio quadrático total;

Estimação dos Parâmetros e Resíduos

  • calcule o intercepto e a inclinação do modelo linear no próprio excel, usando as funções descritas no quadro abaixo;

Para o cálculo dos parâmetros da reta use as funções do Excel:

  • INCLINAÇÃO 3)
  • INTERCEPÇÃO 4)
  • a partir da inclinação e do intercepto estimado, calcule o valor predito pelo modelo em uma coluna chamada predMod
  • crie uma outra coluna (resdMod) com os valores de resíduos do modelo para cada observação (observado menos o predito pelo modelo);
  • calcule o desvio quadrático do resíduo para cada observação;
  • some os desvios quadráticos dos resíduos;

Tabela de Anova de um Modelo Linear

Equações

Somas Quadráticas

$$SS_{TOTAL} = \sum_{i=1}^n (y_{i} - \bar{y})^2$$

$$SS_{res} = \sum_{i=1}^n (y_{i} - \hat{y_i})^2$$

$$SS_{TOTAL} = SS_{regr} + SS_{res} $$

$\bar{y}$ = média da variável resposta

$\hat{y_i}$ = valor estimado pelo modelo para $x_i$

  • Calcule o p-valor associado à estatística F do modelo

Utilize no excel o valor 1- DIST.F(F, df1, df2, VERDADEIRO)5) para o calculo do p-valor sendo F o valor da estatística F calculada, df1 o grau de liberdade da regressão (normalmente 1) e df2 o valor de graus de liberdade do cálculo dos desvios quadráticos médios dos resíduos (n - 2).

  • calcule o $r2$ (coeficiente de determinação) da regressão 6);

$$ R^2 = \frac{SS_{regr}}{SS_{TOTAL}} $$

  • entre os dados no Rcmdr e faça um modelo linear do crescimento em função da concentração de taninos;
  • faça o teste de hipótese por ANOVA do modelo gerado;
  • compare o resultado obtido na planilha com a ANOVA do modelo linear do Rcmdr;

Diagnóstico do Modelo Linear

O diagnóstico do modelo linear é feito baseado nas premissas associadas ao modelo e para verificar a influência de cada observação na estimativa dos parâmetros do modelo. Os nossos dados precisam estar acoplados às premissas do modelo linear e não é desejável que o modelo seja definido apenas por uma ou por poucas observações influentes. As principais premissas dos modelos lineares são:

  • a relação entre a variável preditora e a resposta é linear;
  • a variabilidade tem estrutura de uma variável aleatória normal;
  • a variabilidade na resposta é constante ao longo de toda a amplitude da preditora;

Além disso, avaliamos, para cada observação, sua alavancagem (leverage), definida pelo quanto a observação se afasta da média dos dados, e a sua influência (distância de Cook), definida como o quanto os parâmetros estimados são alterados ao se retirar esta observação dos dados.

Faça ou refaça o tutorial Regressão Linear para entender ou sedimentar o diagnóstico dos modelos lineares.

Variável Indicadoras (Dummies)

Uma das razões para a unificação do testes clássicos em modelos lineares foi a transformação das variáveis categóricas em variáveis indicadoras, também chamadas de dummies. As variáveis indicadoras são definidas pelas categorias da variável aleatória, indicando 1 quando a observação pertence ao nível e 0 quando não pertence. Para cada nível precisamos de uma indicadora, com exceção do nível que é considerado basal, indicado pelo 0 em todas as variáveis indicadoras dos outros níveis. Portanto, precisamos de:

$$n_{levels} - 1$$

variáveis indicadoras para cada variável categórica em nosso modelo. Dessa forma, para uma variável preditora categórica com 4 níveis teremos 3 variáveis indicadoras no modelo e se tivermos duas variáveis categóricas preditoras, cada uma com 3 níveis, teremos 4 variáveis indicadoras, duas para cada. Com a transformação para variáveis indicadoras, o modelo linear pode tratar as variáveis categóricas como variáveis numéricas binárias e assim, podemos inserir variáveis numéricas e categóricas como preditoras indistintamente no modelo linear. Entretanto, entender que as categorias foram transformadas em indicadoras é essencial para a interpretação destas variáveis nos outputs do modelo. Veja a explicação mais detalhada na videoaula abaixo:

  • baixe o arquivo colheita.csv
  • abra no excel
  • note que a variável solo tem agora 4 níveis: arenoso, argiloso, húmico e alagado
  • transforme a variável solo em dummy (3 novas colunas: arenoso, argiloso, húmico) 7)
  • Importe os dados para o Rcommander
  • Ajuste um modelo com as variáveis dummy no menu Estatística > Ajuste de Modelos > Modelo Linear. Use a fórmula abaixo para construir o modelo:
colhe ~ arenoso + argiloso + humico 
  • Avalie o modelo “dummy” indo no menu Modelos > Resumir modelo e clique em OK.
  • Para olhar a tabela de partição de variância, vá ao menu Modelos > Testes de hipóteses > Tabela de ANOVA

* Ajuste o modelo normal de ANOVA seguindo os mesmo passos anteriores, apenas mudando a fórmula do modelo para:

colhe~solo
  • compare os dois modelos (veja os resultados na janela Outputs)

PARA ENTREGAR ANTES DO INÍCIO DA PRÓXIMA AULA

  • Entre em uma conta google e preencha o formulário abaixo.
  • Caso não tenha conta ou não consiga preencher pelo link do formulário, encaminhe as repostas e documentos aos professores (planecousp@gmail.com), indicando como “Assunto”: Modelos Lineares Simples II.

1)
caso não lembre, volte ao roteiro e refaça a construção do modelo com os dados gerados com dp = 4
2)
quando não há nenhuma variável preditora
3)
SLOPE no LibreOffice
4)
INTERCEPT no LibreOffice
5)
F.DIST no LibreOffice
6)
desvios quadráticos da regressão dividido pelo soma dos desvios quadrático total
7)
“1;0;0”, “0;1;0” e “0;0;1” representando cada uma uma variável. Note que um nível (alagado) não foi representado como dummy, esse será representado pelo intercepto do modelo
cursos/planeco/roteiro/08b-lmii_rcmdr.txt · Última modificação: 2021/04/07 09:41 por adalardo