Os modelos lineares são uma generalização dos testes de hipótese clássicos mais simples. Uma regressão linear, por exemplo, só pode ser aplicada para dados em que tanto a variável preditora quanto a resposta são contínuas, enquanto uma análise de variância é utilizada quando a variável preditora é categórica. Os modelos lineares não têm essa limitação, podemos usar variáveis contínuas ou categóricas indistintamente.
No nosso quadro de testes clássicos frequentistas, definimos os testes, baseados na natureza das variáveis respostas e preditoras.
Os modelos lineares dão conta de todos os testes apresentados na tabela acima que tenham a variável resposta contínua. Portanto, já não há mais necessidade de decorar os nomes: teste-t, Anova, Anova Fatorial, Regressão Simples, Regressão Múltipla, Ancova entre muitos outros nomes de testes que foram incorporados nos modelos lineares. Isso não livra o bom usuário de estatística de entender a natureza das variáveis que está utilizando. Isso continua sendo imprescindível para tomar boas decisões ao longo do processo de análise e interpretação dos dados.
Vamos começar com um exemplo simples de regressão, mas de forma diferente da usual. Vamos usar a engenharia reversa para entender bem o que os modelos estatísticos estão nos dizendo e como interpretar os resultados produzidos. Para isso vamos inicialmente gerar dados fictícios. Esses dados terão dois componentes: uma estrutura determinística e outra aleatória. A primeira está relacionada ao processo de interesse e relaciona a variável resposta à preditora. No caso, essa estrutura é linear e tem a seguinte forma:
$$ y = {\alpha} + {\beta} x$$
O componente aleatório é expresso por uma variável probabilística Gaussiana da seguinte forma:
$$ \epsilon = N(0, \sigma) $$
Portanto, nossos dados serão uma amostra de uma população com a seguinte estrutura:
$$ y = {\alpha} + {\beta} x + \epsilon$$
Parece complicado, mas é razoavelmente simples gerar dados aleatórios em nosso computador baseado nessa estrutura. Para isso, abra uma planilha eletrônica e siga os passos descritos abaixo:
A1;A2:A16 com uma sequência de valores de 0.5 a 7.5, em intervalos de 0.5B1;B2 com a fórmula = 4 + 3.5 * A2B3:B16, clicando e arrastando o mouse quando aparecer no canto inferior esquerdo da célula B2 o sinal de +.C1;C3:C16, clicando e arrastando o mouse quando aparecer no canto inferior esquerdo da célula B2 o sinal de +.D1;A função INV.NORM.N() tem três parâmetros, (1) probabilidade, (2) média e (3) desvios padrão. Ao definir o terceiro parâmetro, estamos amostrando valores de uma distribuição normal com desvio padrão igual a 2.
Anote os valores do resultado da análise na planilha modelo linear I
ATENÇÃO A PLANILHA GOOGLE PODE ESTAR FORMATADA PARA DECIMAL COM ,. CONFIRA AO FAZER A TRANSPOSIÇÃO DE VALORES
A base da estatística frequentista é que uma amostra e seus resultados são apenas uma realização dentre os possíveis resultados provenientes de uma população real, a qual não temos acesso. Utilizando os resultados de outros alunos na tabela modelo linear I, vamos investigar alguns conceitos importantes.
Para entendermos melhor o que afeta nossas estimativas e também o resíduo do modelo (ou erro), vamos fazer uma pequena modificação nos nossos dados simulados, aumentando (MUITO!) a variabilidade do nosso sistema. Para isso precisamos apenas mudar o parâmetro dos dados simulados associados à sua variância (no caso, o parâmetro desvio padrão). Desta forma, a nossa população estatística incorpora maior variabilidade. Isso, por consequência, afeta nossas estimativas. Vamos investigar como:
INV.NORM.N(ALEATÓRIO(); 0 ; 2)
para:
INV.NORM.N(ALEATÓRIO(); 0 ; 4)
Guarde os resultados base do modelo na planilha modelo linear simples II
Salve o arquivo com os dado simulados pois iremos utilizá-lo no próximo roteiro.
PARA ENTREGAR ANTES DO INÍCIO DA PRÓXIMA AULA
Preencha as perguntas no formulário abaixo até antes da próxima aula ou a data estipulada pela equipe da disciplina. Caso tenha algum problema, faça pelo link https://forms.gle/kP4UiKhdhDLLA27bA. Em caso de mais de uma submissão, a última, antes do final do prazo, será considerada.
Responda o formulário abaixo.
Para enviar as respostas é necessário estar logado no wiki.
Utilize:
<form> action pagemod cursos:planeco:respostas:lm01 table_adder thanks “Respostas enviadas”
fieldset “Seus dados” textbox “Nome” @ textbox “Email” @ select “Nível” “mestrado|doutorado|nenhum” @ select “Programa” “Ecologia IBUSP| IBUSP| USP| Outra Universidade”
fieldset “Quais parâmetros definem a população?” multiselect “Selecione:” “Intercepto|P_valor|Resíduos|Inclinação|Amostra|Desvio_padrão|R_quadrado|Graus_de_liberdade”
fieldset “Anote os valores médios de todos os alunos da planilha Modelo Linear simples I e II”
number “Intercept I” number “Intercept II” number “Slope I” number “Slope II” number “Erro Padrão I” number “Erro Padrão II” number “R squared I” number “R squared II”
fieldset “Anote quantas vezes o p-valor foi maior que 0.05:”
number “modelo I” number “modelo II”
fieldset “Explique o que aconteceria aos valores médios das estimativas se acrescentássemos mais 1000 alunos na turma?” textarea “Resposta 1:” !
fieldset “Descreva quais as diferenças observadas nos resultados médios do modelo I e II” textarea “Resposta 2:” !
fieldset “Qual(is) valores(s) apresentado(s) no modelo indica(m) ” textbox “variabilidade do sistema:” textbox “incerteza nas estimativas:”
fieldset “Qual a interpretação do p-valor e do r-squared nos modelos lineares?” textarea “p-valor:” ! textarea “r-squared:” !
submit
</form>
Os modelos podem ser analisados através do método de partição de variância que aprendemos no roteiro de Princípios da Estatística Frequentista. Vamos utilizar os dados do modelo II que simulamos (dp = 4) no tutorial do tópico simulando_dados do roteiro anterior e criar novamente o modelo linear no Rcmdr2).
O modelo gerado e seu resultado, apresentado na tabela de partição de variância, nada mais é do que uma comparação com o modelo nulo. A tabela de Anova de um modelo isolado é equivalente a comparar o modelo em questão com o modelo nulo. Para verificarmos isso, vamos comparar o resultado da tabela de anova do modelo com uma tabela de anova que compara o modelo com o modelo nulo. O entendimento desse conceito será fundamental para entendermos a comparação de modelo por partição de variância, interpretando a tabela de ANOVA.
Nesse ponto, é desejável que tenha entendido que a partição da variância de um modelo é correspondente a compará-lo com o modelo nulo, ou seja, quanta variância o modelo é capaz de explicar em relação ao modelo nulo. Esse modelo nulo, representa o modelo mais simples com a variação total dos dados e é representado por apenas um parâmetro, a média da variável resposta.
O nosso próximo exercício usa os dados de crescimento de lagartas submetidas a dietas de folhas com diferentes concentrações de taninos. São apenas duas variáveis, growth, o crescimento da lagarta, e tannins, a concentração de taninos. O objetivo é verificar se há relação entre o crescimento da lagarta e a concentração de taninos da dieta.
$$SS_{TOTAL} = \sum_{i=1}^n (y_{i} - \bar{y})^2$$
$$SS_{res} = \sum_{i=1}^n (y_{i} - \hat{y_i})^2$$
$$SS_{TOTAL} = SS_{regr} + SS_{res} $$
$\bar{y}$ = média da variável resposta
$\hat{y_i}$ = valor estimado pelo modelo para $x_i$
Utilize no excel o valor 1- DIST.F(F, df1, df2, VERDADEIRO)5) para o calculo do p-valor sendo F o valor da estatística F calculada, df1 o grau de liberdade da regressão (normalmente 1) e df2 o valor de graus de liberdade da desvios quadráticos médios dos resíduos.
$$ R^2 = \frac{SS_{regr}}{SS_{TOTAL}}
colhe ~ arenoso + argiloso + humico
* Ajuste o modelo normal de ANOVA seguindo os mesmo passos anteriores, apenas mudando a fórmula do modelo para:
colhe~solo
PARA ENTREGAR ANTES DO INÍCIO DA PRÓXIMA AULA