Os modelos lineares são uma generalização dos testes de hipótese clássicos mais simples. Uma regressão linear, por exemplo, só pode ser aplicada para dados em que as variáveis são contínuas. Os modelos lineares não tem essa limitação, podemos usar variáveis contínuas ou categóricas indistintamente.
No nosso quadro de testes clássicos frequentistas, definimos os testes, baseados na natureza das variáveis respostas e preditoras.
No caso, os modelos lineares dão conta de todos os testes nessa tabela que tenham a variável resposta contínua. Portanto, já não há mais necessidade de decorar os nomes: teste-t, Anova, Anova Fatorial, Regressão Simples, Regressão Múltipla, Ancova entre muitos outros nomes de testes que foram incorporados nos modelos lineares. Isso não livra o bom usuário de estatística de entender a natureza das variáveis que está trabalhando. Isso continua sendo imprescindível para tomar boas decisões ao longo do processo de análise e interpretação destes dados.
Vamos começar com um exemplo simples de regressão, mas de forma diferente da usual. Vamos usar a engenharia reversa para entender bem o que os modelos estatísticos estão nos dizendo. Iremos inicialmente criar nossos dados. Abra uma planilha eletrônica e siga os passos descritos abaixo:
A função INV.NORM.N() tem três parâmetros, (1) probabilidade, (2) média e (3) desvios padrão. Ao definir o terceiro parâmetro, estamos amostrando valores de uma distribuição normal com desvio padrão igual a 4.
Anote os valores do resultado da análise na planilha resultados do modelo linear
A base da estatística frequentista é que uma amostra e seus resultados são uma realização dos possíveis resultados provenientes de uma população ideal, na qual não temos acesso. Utilizando os resultados de outros alunos da tabela resultados do modelo linear e o que aprendeu no exercício, responda:
O nosso próximo exercício usa os dados de crescimento de lagartas submetidas a dietas de folhas com diferentes concentrações de taninos. São apenas duas variáveis, growth, o crescimento da lagarta, e tannins, a concentração de taninos. O objetivo é verificar se há relação entre o crescimento da lagarta e a concentração de taninos da dieta.
Para o cálculo dos parâmetros da reta use as funções do Excel:
INCLINAÇÃO
INTERCEPÇÃO
SSTOTAL=n∑i=1(yi−ˉy)2
SSres=n∑i=1(yi−^yi)2
SSTOTAL=SSregr+SSres
ˉy = média da variável resposta
^yi = valor estimado pelo modelo para xi
Utilize no excel o valor 1- DIST.F(F, df1, df2, VERDADEIRO) para o calculo do p-valor sendo F o valor da estatística F calculada, df1 o grau de liberdade da regressão (normalmente 1) e df2 o valor de graus de liberdade da desvios quadráticos médios dos resíduos.
$$ R^2 = \frac{SS_{regr}}{SS_{TOTAL}}
colhe ~ arenoso + argiloso + humico
colhe~solo