Os modelos lineares são uma generalização dos testes de hipótese clássicos mais simples. Uma regressão linear, por exemplo, só pode ser aplicada para dados em que tanto a variável preditora quanto a resposta são contínuas, enquanto uma análise de variância é utilizada quando a variável preditora é categórica. Os modelos lineares não têm essa limitação, podemos usar variáveis contínuas ou categóricas indistintamente.
No nosso quadro de testes clássicos frequentistas, definimos os testes, baseados na natureza das variáveis respostas e preditoras.
Os modelos lineares dão conta de todos os testes apresentados na tabela acima que tenham a variável resposta contínua. Portanto, já não há mais necessidade de decorar os nomes: teste-t, Anova, Anova Fatorial, Regressão Simples, Regressão Múltipla, Ancova entre muitos outros nomes de testes que foram incorporados nos modelos lineares. Isso não livra o bom usuário de estatística de entender a natureza das variáveis que está utilizando. Isso continua sendo imprescindível para tomar boas decisões ao longo do processo de análise e interpretação dos dados.
Vamos começar com um exemplo simples de regressão, mas de forma diferente da usual. Vamos usar a engenharia reversa para entender bem o que os modelos estatísticos estão nos dizendo e como interpretar os resultados produzidos. Para isso vamos inicialmente gerar dados fictícios. Esses dados terão dois componentes: uma estrutura determinística e outra aleatória. A primeira está relacionada ao processo de interesse e relaciona a variável resposta à preditora. No caso, essa estrutura é linear e tem a seguinte forma:
y=α+βx
O componente aleatório é expresso por uma variável probabilística Gaussiana da seguinte forma:
ϵ=N(0,σ)
Portanto, nossos dados serão uma amostra de uma população com a seguinte estrutura:
y=α+βx+ϵ
Parece complicado, mas é razoavelmente simples gerar dados aleatórios em nosso computador baseado nessa estrutura. Para isso, abra uma planilha eletrônica e siga os passos descritos abaixo:
A1
;A2:A16
com uma sequência de valores de 0.5 a 7.5, em intervalos de 0.5B1
;B2
com a fórmula = 4 + 3.5 * A2B3:B16
, clicando e arrastando o mouse quando aparecer no canto inferior esquerdo da célula B2
o sinal de +.C1
;C3:C16
, clicando e arrastando o mouse quando aparecer no canto inferior esquerdo da célula B2 o sinal de +.D1
;A função INV.NORM.N() tem três parâmetros, (1) probabilidade, (2) média e (3) desvios padrão. Ao definir o terceiro parâmetro, estamos amostrando valores de uma distribuição normal com desvio padrão igual a 2.
Anote os valores do resultado da análise na planilha modelo linear I
ATENÇÃO A PLANILHA GOOGLE PODE ESTAR FORMATADA PARA DECIMAL COM ,
. CONFIRA AO FAZER A TRANSPOSIÇÃO DE VALORES
A base da estatística frequentista é que uma amostra e seus resultados são apenas uma realização dentre os possíveis resultados provenientes de uma população real, a qual não temos acesso. Utilizando os resultados de outros alunos na tabela modelo linear I, vamos investigar alguns conceitos importantes.
Para entendermos melhor o que afeta nossas estimativas e também o resíduo do modelo (ou erro), vamos fazer uma pequena modificação nos nossos dados simulados, aumentando (MUITO!) a variabilidade do nosso sistema. Para isso precisamos apenas mudar o parâmetro dos dados simulados associados à sua variância (no caso, o parâmetro desvio padrão). Desta forma, a nossa população estatística incorpora maior variabilidade. Isso, por consequência, afeta nossas estimativas. Vamos investigar como:
INV.NORM.N(ALEATÓRIO(); 0 ; 2)
para:
INV.NORM.N(ALEATÓRIO(); 0 ; 4)
Guarde os resultados base do modelo na planilha modelo linear simples II
Salve o arquivo com os dado simulados pois iremos utilizá-lo no próximo roteiro.
PARA ENTREGAR ANTES DO INÍCIO DA PRÓXIMA AULA
Preencha as perguntas no formulário abaixo até antes da próxima aula ou a data estipulada pela equipe da disciplina. Caso tenha algum problema, faça pelo link https://forms.gle/kP4UiKhdhDLLA27bA. Em caso de mais de uma submissão, a última, antes do final do prazo, será considerada.
Responda o formulário abaixo.
Para enviar as respostas é necessário estar logado no wiki.
Utilize:
Os modelos podem ser analisados através do método de partição de variância que aprendemos no roteiro de Princípios da Estatística Frequentista. Vamos utilizar os dados do modelo II que simulamos (dp = 4) no tutorial do tópico simulando_dados do roteiro anterior e criar novamente o modelo linear no Rcmdr2).
O modelo gerado e seu resultado, apresentado na tabela de partição de variância, nada mais é do que uma comparação com o modelo nulo. A tabela de Anova de um modelo isolado é equivalente a comparar o modelo em questão com o modelo nulo. Para verificarmos isso, vamos comparar o resultado da tabela de anova do modelo com uma tabela de anova que compara o modelo com o modelo nulo. O entendimento desse conceito será fundamental para entendermos a comparação de modelo por partição de variância, interpretando a tabela de ANOVA.
Nesse ponto, é desejável que tenha entendido que a partição da variância de um modelo é correspondente a compará-lo com o modelo nulo, ou seja, quanta variância o modelo é capaz de explicar em relação ao modelo nulo. Esse modelo nulo, representa o modelo mais simples com a variação total dos dados e é representado por apenas um parâmetro, a média da variável resposta.
O nosso próximo exercício usa os dados de crescimento de lagartas submetidas a dietas de folhas com diferentes concentrações de taninos. São apenas duas variáveis, growth, o crescimento da lagarta, e tannins, a concentração de taninos. O objetivo é verificar se há relação entre o crescimento da lagarta e a concentração de taninos da dieta.
SSTOTAL=n∑i=1(yi−¯y)2
SSres=n∑i=1(yi−^yi)2
SSTOTAL=SSregr+SSres
¯y = média da variável resposta
^yi = valor estimado pelo modelo para xi
Utilize no excel o valor 1- DIST.F(F, df1, df2, VERDADEIRO)5) para o calculo do p-valor sendo F o valor da estatística F calculada, df1 o grau de liberdade da regressão (normalmente 1) e df2 o valor de graus de liberdade da desvios quadráticos médios dos resíduos.
$$ R^2 = \frac{SS_{regr}}{SS_{TOTAL}}
colhe ~ arenoso + argiloso + humico
* Ajuste o modelo normal de ANOVA seguindo os mesmo passos anteriores, apenas mudando a fórmula do modelo para:
colhe~solo
PARA ENTREGAR ANTES DO INÍCIO DA PRÓXIMA AULA