Ferramentas do usuário

Ferramentas do site


cursos:planeco:roteiro:08-lm_rcmdr

Essa é uma revisão anterior do documento!


Modelos Lineares Simples I

lmComics.jpg

Os modelos lineares são uma generalização dos testes de hipótese clássicos mais simples. Uma regressão linear, por exemplo, só pode ser aplicada para dados em que tanto a variável preditora quanto a resposta são contínuas, enquanto uma análise de variância é utilizada quando a variável preditora é categórica. Os modelos lineares não têm essa limitação, podemos usar variáveis contínuas ou categóricas indistintamente.

ERRATA: por volta de 16'28“ digo que o valor da inclinação na população é 3,5 quando o correto é 2,5

No nosso quadro de testes clássicos frequentistas, definimos os testes, baseados na natureza das variáveis respostas e preditoras.

tabTestes.png

Os modelos lineares dão conta de todos os testes apresentados na tabela acima que tenham a variável resposta contínua. Portanto, já não há mais necessidade de decorar os nomes: teste-t, Anova, Anova Fatorial, Regressão Simples, Regressão Múltipla, Ancova entre muitos outros nomes de testes que foram incorporados nos modelos lineares. Isso não livra o bom usuário de estatística de entender a natureza das variáveis que está utilizando. Isso continua sendo imprescindível para tomar boas decisões ao longo do processo de análise e interpretação dos dados.

Simulando Dados

Vamos começar com um exemplo simples de regressão, mas de forma diferente da usual. Vamos usar a engenharia reversa para entender bem o que os modelos estatísticos estão nos dizendo e como interpretar os resultados produzidos. Para isso vamos inicialmente gerar dados fictícios. Esses dados terão dois componentes: uma estrutura determinística e outra aleatória. A primeira está relacionada ao processo de interesse e relaciona a variável resposta à preditora. No caso, essa estrutura é linear e tem a seguinte forma:

$$ y = {\alpha} + {\beta} x$$

Note que estamos usando uma notação diferente da aula de regressão linear, mas a expressão é a mesma:

$\alpha$ = A

$\beta$ = B

Ou seja, os parâmetros da população ao qual não temos acesso. O componente aleatório é expresso por uma variável probabilística Gaussiana da seguinte forma:

$$ \epsilon = N(0, \sigma) $$

Portanto, nossos dados serão uma amostra de uma população com a seguinte estrutura:

$$ y = {\alpha} + {\beta} x + \epsilon$$

Parece complicado, mas é razoavelmente simples gerar dados aleatórios em nosso computador baseado nessa estrutura. Para isso, abra uma planilha eletrônica e siga os passos descritos abaixo:

  • nomeie a coluna A como x na célula A1;
  • preencha as células A2:A16 com uma sequência de valores de 0.5 a 7.5, em intervalos de 0.5

plx.png

  • nomeie a coluna B como y0 na célula B1;
  • preencha a célula B2 com a fórmula = 4 + 3.5 * A2
  • copie a formula para as células B3:B16, clicando e arrastando o mouse quando aparecer no canto inferior esquerdo da célula B2 o sinal de +.

plaxy.png

  • nomeie a coluna C como desvio na célula C1;
  • preencha a célula C2 com a fórmula = INV.NORM.N(ALEATÓRIO(); 0 ; 7) 1). Essa fórmula vai retornar valores aleatórios tomados de uma distribuição normal com média 0 e desvio padrão 7;
  • copie a formula para as células C3:C16, clicando e arrastando o mouse quando aparecer no canto inferior esquerdo da célula B2 o sinal de +.

lmCreateDesvios.png

A função INV.NORM.N() tem três parâmetros, (1) probabilidade, (2) média e (3) desvios padrão. Ao definir o terceiro parâmetro, estamos amostrando valores de uma distribuição normal com desvio padrão igual a 7.

  • nomeie a coluna D como y1 na célula D1;
  • A variável y1 na coluna D é a soma do valor da coluna B com o valor da coluna C (y0+ desvio). Para fazer isso, coloque na célula D2 a função =soma(B2:C2) ou =B2+C2 , depois copie para as outras células da coluna;
  • salve a planilha como texto separado por vírgulas e use o nome “xy.csv”

Note que a cada vez que faz algum cálculo na planilha os valores dos desvios são atualizados, ou seja, novas amostras são feitas da pela função INV.NORM.N os valores de desvios atualizados. Para evitar esse comportamento podemos selecionar os valores desta coluna e usar Editar > Colar especial e usar a opção de colar apenas os valores numericos, com isso a formula some e os valores não são mais atualizados a todo momento.

  • importe os dados da planilha para o Rcommander (lembrando de selecionar como separador a vírgula) e use o nome xy ;
  • garanta que os dados foram lidos corretamente, clicando em View data set

Rcmdrxy.png

Modelos Lineares Simples

lmComics.jpg

Os modelos lineares são uma generalização dos testes de hipótese clássicos mais simples. Uma regressão linear, por exemplo, só pode ser aplicada para dados em que tanto a variável preditora quanto a resposta são contínuas, enquanto uma análise de variância é utilizada quando a variável preditora é categórica. Os modelos lineares não têm essa limitação, podemos usar variáveis contínuas ou categóricas indistintamente.

ERRATA: por volta de 16'28“ digo que o valor da inclinação na população é 3,5 quando o correto é 2,5

No nosso quadro de testes clássicos frequentistas, definimos os testes, baseados na natureza das variáveis respostas e preditoras.

tabTestes.png

Os modelos lineares dão conta de todos os testes apresentados na tabela acima que tenham a variável resposta contínua. Portanto, já não há mais necessidade de decorar os nomes: teste-t, Anova, Anova Fatorial, Regressão Simples, Regressão Múltipla, Ancova entre muitos outros nomes de testes que foram incorporados nos modelos lineares. Isso não livra o bom usuário de estatística de entender a natureza das variáveis que está utilizando. Isso continua sendo imprescindível para tomar boas decisões ao longo do processo de análise e interpretação dos dados.

Simulando dados

Vamos começar com um exemplo simples de regressão, mas de forma diferente da usual. Vamos usar a engenharia reversa para entender bem o que os modelos estatísticos estão nos dizendo e como interpretar os resultados produzidos. Para isso vamos inicialmente gerar dados fictícios. Esses dados terão dois componentes: uma estrutura determinística e outra aleatória. A primeira está relacionada ao processo de interesse e relaciona a variável resposta à preditora. No caso, essa estrutura é linear e tem a seguinte forma:

$$ y = {\alpha} + {\beta} x$$

Note que estamos usando uma notação diferente da aula de regressão linear, mas a expressão é a mesma:

$\alpha$ = A

$\beta$ = B

Ou seja, os parâmetros da população ao qual não temos acesso. O componente aleatório é expresso por uma variável probabilística Gaussiana da seguinte forma:

$$ \epsilon = N(0, \sigma) $$

Portanto, nossos dados serão uma amostra de uma população com a seguinte estrutura:

$$ y = {\alpha} + {\beta} x + \epsilon$$

Parece complicado, mas é razoavelmente simples gerar dados aleatórios em nosso computador baseado nessa estrutura. Para isso, abra uma planilha eletrônica e siga os passos descritos abaixo:

  • nomeie a coluna A como x na célula A1;
  • preencha as células A2:A16 com uma sequência de valores de 0.5 a 7.5, em intervalos de 0.5

plx.png

  • nomeie a coluna B como y0 na célula B1;
  • preencha a célula B2 com a fórmula = 4 + 3.5 * A2
  • copie a formula para as células B3:B16, clicando e arrastando o mouse quando aparecer no canto inferior esquerdo da célula B2 o sinal de +.

plaxy.png

  • nomeie a coluna C como desvio na célula C1;
  • preencha a célula C2 com a fórmula = INV.NORM.N(ALEATÓRIO(); 0 ; 7) 2). Essa fórmula vai retornar valores aleatórios tomados de uma distribuição normal com média 0 e desvio padrão 7;
  • copie a formula para as células C3:C16, clicando e arrastando o mouse quando aparecer no canto inferior esquerdo da célula B2 o sinal de +.

lmCreateDesvios.png

A função INV.NORM.N() tem três parâmetros, (1) probabilidade, (2) média e (3) desvios padrão. Ao definir o terceiro parâmetro, estamos amostrando valores de uma distribuição normal com desvio padrão igual a 7.

  • nomeie a coluna D como y1 na célula D1;
  • A variável y1 na coluna D é a soma do valor da coluna B com o valor da coluna C (y0+ desvio). Para fazer isso, coloque na célula D2 a função =soma(B2:C2) ou =B2+C2 , depois copie para as outras células da coluna;
  • salve a planilha como texto separado por vírgulas e use o nome “xy.csv”

Note que a cada vez que faz algum cálculo na planilha os valores dos desvios são atualizados, ou seja, novas amostras são feitas da pela função INV.NORM.N os valores de desvios atualizados. Para evitar esse comportamento podemos selecionar os valores desta coluna e usar Editar > Colar especial e usar a opção de colar apenas os valores numericos, com isso a formula some e os valores não são mais atualizados a todo momento.

  • importe os dados da planilha para o Rcommander (lembrando de selecionar como separador a vírgula) e use o nome xy ;
  • garanta que os dados foram lidos corretamente, clicando em View data set

Rcmdrxy.png

Modelo Linear Simples

Criando o modelo no Rcmdr

Abra o menu Statistics > Fit Models > Linear Models…

RcmdrLM01.png

  • Defina o nome desse modelo como mod1
  • A fórmula do modelo tem duas caixas. Na caixa da esquerda (antes do símbolo ~) você deve colocar a variável resposta, que nesse caso é a nossa variável y1.
  • Na caixa da direita (após o ~) coloque a variável preditora, que nesse caso é a variável x

equacaoXYmod1.png

  • interprete o resultado do ajuste. Onde está o valor da inclinação da reta ajustada?
  • copie o resultado do summary do modelo que aparece na janela Output3)

summaryMod1xy.png

Resultados do Modelo I

Anote os valores do resultado da análise na planilha modelo linear I

ATENÇÃO A PLANILHA GOOGLE PODE ESTAR FORMATADA PARA DECIMAL COM ,. CONFIRA AO FAZER A TRANSPOSIÇÃO DE VALORES

Múltiplos Experimentos

A base da estatística frequentista é que uma amostra e seus resultados são apenas uma realização dentre os possíveis resultados provenientes de uma população real, a qual não temos acesso. Utilizando os resultados de outros alunos na tabela modelo linear I, vamos investigar alguns conceitos importantes.

  1. Baixe a planilha modelo linear I no seu computador, depois de incluir o seu dado. Não se preocupe em esperar todos os colegas completarem a planilha, repetimos algumas vezes a simulação de dados para que possam usar, mesmo que nenhum outro aluno tenha feito ainda. Não calcule nenhum valor diretamente na planilha do Google
  2. Calcule a média e o desvio padrão dos parâmetros dessa planilha
  3. Conte o número de vezes que o p-valor foi maior do que 0.05.
  4. Responda as perguntas indicadas no questionário no final dessa atividade.

Variabilidades e Incertezas

Para entendermos melhor uma das fontes de variabilidade que afeta nossas estimativas e também o resíduo do modelo, vamos fazer uma pequena modificação nos nossos dados simulados, aumentando (MUITO!) a variabilidade do nosso sistema. Para isso precisamos apenas mudar o parâmetro da nossa população associados à sua variabilidade (no caso, o parâmetro desvio padrão). Desta forma, a nossa população estatística incorpora maior variabilidade. Isso, por consequência, afeta nossas estimativas. Vamos investigar como:

  • simule um novo conjunto de dados usando os mesmo passos anteriores, mudando apenas o comando:

INV.NORM.N(ALEATÓRIO(); 0 ; 7)

para:

INV.NORM.N(ALEATÓRIO(); 0 ; 14)

  • Salve o arquivo com os dado simulados pois iremos utilizá-lo no próximo roteiro;
  • suba os dados para o Rcommander;
  • construa o modelo no Rcommander;
  • salve os resultados do modelo.

Resultado do Modelo II

  • anote os resultados base do modelo na planilha modelo linear simples II
  • depois de anotar seus resultados baixe a planilha no seu computador;
  • faça os cáculos de médias e desvios padrão para todas os parâmetros desta planilha;
  • compare esses valores com os da resultado do modelo.

Tamanho Amostral

Uma outra fonte de imprecisão no nosso modelo tem relação com a próprio desenho experimental e está associada ao tamanho da nossa amostra. Essa fonte de imprecisão, apesar de estar acoplada à variabilidade da sistema, pode ser minimizada com o aumento do esforço amostral. Vamos simular uma amostra maior para o caso acima onde o desvio padrão da população é 7, modificando a sequência de valores de x na amplitude de 0,5 a 7,5 para intervalos de 0,14, totalizando 51 observações na nossa amostra.

Para agilizar a construção desta sequência podemos criar um valor de referência para as observações de 0 a 50 e operar esse valor de referência.

  • na célula A2 inicie em 0 e crie uma sequencia de inteiros até 50 (célula A51);
  • na célula B2 coloque a fórmula =0.5+(1.4*A2) e copie a fórmula para todas a coluna até a célula B51;
  • a partir deste ponto é só seguir os passos da simulação anterior;
  • garanta que calculou os desvios com INV.NORM.N(ALEATÓRIO(); 0 ; 14), como no exemplo anterior;
  • salve os dados simulados em um arquivo para uso posterior;
  • crie o modelo no Rcommander;
  • salve o resultado do modelo;
  • anote os resultados do modelo gerado na planilha modelo linear III ;
  • salve a planilha no seu computador;
  • calcule a média e o desvio padrão para todos os parâmetros;
  • compare esses valores com os resutados do modelo da sua simulação de dados.

PARA ENTREGAR ANTES DO INÍCIO DA PRÓXIMA AULA

Preencha as perguntas no formulário abaixo até antes da próxima aula ou a data estipulada pela equipe da disciplina. Caso tenha algum problema, faça pelo link https://forms.gle/LuRFrjnTEmrNCccJ8. Em caso de mais de uma submissão, a última, antes do final do prazo, será considerada.

Exercício Modelo Linear Simples

Responda o formulário abaixo.

Para enviar as respostas é necessário estar logado no wiki.

Utilize:

  • usuário: alunos
  • senha: planeco2020
Seus dados
Quais parâmetros definem a população?
Anote os valores médios de todos os alunos da planilha Modelo Linear simples I e II
Anote quantas vezes o p-valor foi maior que 0.05:
Explique o que aconteceria aos valores médios das estimativas se acrescentássemos mais 1000 alunos na turma?
Descreva quais as diferenças observadas nos resultados médios do modelo I e II
Qual(is) valores(s) apresentado(s) no modelo indica(m)
Qual a interpretação do p-valor e do r-squared nos modelos lineares?

Modelo Linear: partição da variação

Os modelos lineares podem ser analisados através do método de partição de variância que aprendemos no roteiro de Princípios da Estatística Frequentista. Caso não tenha sedimentado bem o conceito, retorne ao roteiro e reveja a videaula, isso será importante para acompanhar o restante deste roteiro. Assim como na análise de variância clássica, podemos particionar a variação total existente nos dados de uma variável preditora contínua nas porções explicadas e não explicadas pelo modelo linear. Assista ao vídeo abaixo para entender como se dá o particionamento da variação no caso de um modelo linear simples e como essa partição é análoga ao que acontece em uma análise de variância.

  A nossa próxima atividade usa os dados de crescimento de lagartas submetidas a dietas de folhas com diferentes concentrações de taninos presente no livro The R Book (Crawley, 2012). São apenas duas variáveis, growth, o crescimento da lagarta, e tannins, a concentração de taninos. O objetivo é verificar se há relação entre o crescimento da lagarta e a concentração de taninos da dieta.

Desvios Quadráticos

  • baixe o arquivo regression.txt;
  • abra o arquivo no Excel, selecionando a separação de campo como tabulação;
  • calcule a média de crescimento das lagartas;
  • calcule o intercepto e a inclinação do modelo linear no próprio excel, usando as funções descritas no quadro abaixo;

Para o cálculo dos parâmetros da reta use as funções do Excel:

  • INCLINAÇÃO 4): veja documentação da função aqui.
  • INTERCEPÇÃO 5): Veja a documetação da função aqui

lmExcel01.png

  • calcule o valor de desvio total para cada observação (o crescimento observado menos a média do crescimento ) e eleve ao quadrado para obter os desvios quadráticos;
  • some esses valores para obter os desvios quadráticos total;
  • a partir da inclinação e do intercepto estimado, calcule o valor predito pelo modelo em uma coluna chamada predito

Predito pelo modelo

A predição do modelo é calculada pela equação da reta:

$$ \hat{y_i} = a + b * x_i $$

a = intercepto

b = inclinação

$x_i$ = valor de x da observação i

$\hat{y_i}$ = valor predito para a observação i

  • crie uma outra coluna (residuo^2) com os valores de resíduos quadratico do modelo para cada observação (observado menos o predito pelo modelo ao quadrado);
  • some os desvios quadráticos dos resíduos para calcular a soma dos desvios quadráticos dos resíduos;
  • faça a diferença entre a soma dos desvios quadráticos total pela soma dos desvios quadráticos dos resíduos para calcular a soma dos desvios quadráticos explicada pelo modelo

Tabela de Anova de um Modelo Linear

A partir da partição da variação dos desvios quadráticos explicado pela preditora (tannin) e não explicado (residuos) podemos montar uma tabela de anova da mesma forma que fizemos no tutorial Testes Clássicos: ANOVA

  • construa uma tabela de anova na mesma planiha, contendo:
    • colunas: soma quadrática, graus de liberdade, média quadrática, F e p-valor
    • linhas: Modelo, Resíduo, Total
  • Complete a tabela

Equações

Somas Quadráticas

$$SS_{TOTAL} = \sum_{i=1}^n (y_{i} - \bar{y})^2$$

$$SS_{res} = \sum_{i=1}^n (y_{i} - \hat{y_i})^2$$

$$SS_{TOTAL} = SS_{regr} + SS_{res} $$

$\bar{y}$ = média da variável resposta

$\hat{y_i}$ = valor estimado pelo modelo para $x_i$

  • Calcule o p-valor associado à estatística F do modelo

Utilize no excel o valor 1- DIST.F(F, df1, df2, VERDADEIRO)6) para o calculo do p-valor sendo F o valor da estatística F calculada, df1 o grau de liberdade da regressão (normalmente 1) e df2 o valor de graus de liberdade do cálculo dos desvios quadráticos médios dos resíduos (n - 2).

  • calcule o $r2$ (coeficiente de determinação) da regressão 7);
  • salve a planilha completa para envio no formulário.

$$ R^2 = \frac{SS_{regr}}{SS_{TOTAL}} $$

Modelo Linear: tabela de anova no R

Vamos agora fazer a tabela de Anova no R

  • leia os dados lagarta.txt no Rcommander, não esqueça de selecionar Tabs como separador de campo8);

readLagarta.png

  • monte um novo modelo linear, chamado lmLag01, pelo menu ( Statistics > Fit Models > Linear Models), selecione:
    • growth como variável resposta;
    • tannin como variável preditora;

lmLag.png

  • interprete o resultado desse modelo
  • faça a tabela de ANOVA do modelo gerado (Models > Hipothesis test > Anova table);
  • durante o curso iremos usar a tabela de ANOVA tipo I onde a partição de variância é sequencial na ordem que os fatores são incluídos no modelo9);
  • marque a opção: Sequential (“Type I”);

RcmdrAnova.png

  • compare o resultado obtido na planilha eletrônica com a tabela de ANOVA do modelo linear do Rcmdr, reconheça a partição da variação em ambos.

Modelo Mínimo

Com esses mesmos dados podemos construir o modelo denominado mínimo ou nulo. No experimento de crescimento da lagarta, a hipótese nula é que tannin não tem efeito em growth. Podemos construir o modelo que representa esse cenário, criando o modelo em que growth não tem preditoras.

  • garanta que o os dados lagarta estão ativos no Rcmdr;
  • monte um novo modelo linear, chamado lmLag00, pelo menu ( Statistics > Fit Models > Linear Models), selecione:
    • growth como variável resposta;
    • inclua 1,numeral um, como variável preditora10);

lmLag00.png

  • monte a tabela de anova do modelo lmLag00 no menu: Models > Hipothesis tests > ANOVA table

Não há muito a ser interpretado nos resultados do modelo mínimo, mas reconheça os valores que são estimados no resultado do modelo em Coefficients Estimate. Note que neste modelo não há inclinação, pois não existe preditora. Na tabela de ANOVA verifique o valor do Sum Sq Residuals e reconheça onde ele se encontra na tabela de ANOVA montada no planilha eletrônica anteriormente.

Comparando Modelos

O procedimento de partição da variação e razão entre variâncias pode ser utilizada como critério para comparação de modelos aninhados. O modelo é considerado aninhado quando o mais complexo engloba todos as variáveis do mais simples, e por consequência o modelo mais simples não pode explicar mais variação do que o mais complexo. Os nossos modelos lmLag00 é aninhado ao modelo lmLag01 e por isso podemos fazer a comparação entre eles pelo critério de partição da variação como segue.

Comparando modelo com o mínimo (nulo) no Rcmdr

  • confira se na caixa Model: existem os modelos lmLag00 e lmLag01;
  • utilize o menu Models > Hypothesis Test > Compare two models;
  • na caixa que se abre selecione lmLag00 e lmLag01 para comparação;

compareAnovaLag00.png

  • compare os valores dessa tabela de comparação entre modelos com a tabela de ANOVA do modelo lmLag01;
  • reconheça os valores das partições de variação em ambos os casos.

Na comparação de modelos a razão de variância é relacionada ao quanto o modelo mais complexo explicou a mais em relação ao modelo mais simples em razão do quanto não foi explicado. Quando fazemos a tabela de ANOVA de um modelo como o lmLag01, a partição é exatamente a mesma do que a tabela de ANOVA de comparação com o modelo nulo ou mínimo11). A tabela de Anova de um modelo isolado é equivalente a comparar o modelo em questão com o modelo nulo correspondente. O entendimento desses conceitos é fundamental para utilizarmos a partição de variação como crítério para a tomada de decisão sobre qual o modelo que melhor explica nossos dados.

Nesse ponto, é desejável que tenha entendido que a partição da variância de um modelo é correspondente a compará-lo com o modelo nulo, ou seja, quanta variância o modelo é capaz de explicar em relação ao modelo nulo. Esse modelo nulo, representa o modelo mais simples com a variação total dos dados e é representado por apenas um parâmetro, a média da variável resposta.

Diagnóstico do Modelo Linear

O diagnóstico do modelo linear é feito baseado nas premissas associadas ao modelo e para verificar a influência de cada observação na estimativa dos parâmetros do modelo. Os nossos dados precisam estar acoplados às premissas do modelo linear e não é desejável que o modelo seja definido apenas por uma ou por poucas observações influentes. As principais premissas dos modelos lineares são:

  • a relação entre a variável preditora e a resposta é linear;
  • a variabilidade tem estrutura de uma variável aleatória normal;
  • a variabilidade na resposta é constante ao longo de toda a amplitude da preditora;

Além disso, avaliamos, para cada observação, sua alavancagem (leverage), definida pelo quanto a observação se afasta da média dos dados, e a sua influência (distância de Cook), definida como o quanto os parâmetros estimados são alterados ao se retirar esta observação dos dados.

Caso ainda tenha dúvidas sobre o diagnóstico dos modelos revisite o tutorial Regressão Linear para sedimentar o diagnóstico dos modelos lineares.

Variáveis Indicadoras (Dummies)

Uma das razões para a unificação do testes clássicos em modelos lineares foi a transformação das variáveis categóricas em variáveis indicadoras, também chamadas de dummies. As variáveis indicadoras são definidas pelas categorias da variável aleatória, indicando 1 quando a observação pertence ao nível e 0 quando não pertence. Para cada nível precisamos de uma indicadora, com exceção do nível que é considerado basal, indicado pelo 0 em todas as variáveis indicadoras dos outros níveis. Portanto, precisamos de:

$$n_{levels} - 1$$

variáveis indicadoras para cada variável categórica em nosso modelo. Dessa forma, para uma variável preditora categórica com 4 níveis teremos 3 variáveis indicadoras no modelo e se tivermos duas variáveis categóricas preditoras, cada uma com 3 níveis, teremos 4 variáveis indicadoras, duas para cada. Com a transformação para variáveis indicadoras, o modelo linear pode tratar as variáveis categóricas como variáveis numéricas binárias e assim, podemos inserir variáveis numéricas e categóricas como preditoras indistintamente no modelo linear. Entretanto, entender que as categorias foram transformadas em indicadoras é essencial para a interpretação destas variáveis nos outputs do modelo. Veja a explicação mais detalhada na videoaula abaixo:

  • baixe o arquivo colheita.csv;
  • abra no excel;
  • note que a variável solo tem agora 4 níveis: arenoso, argiloso, húmico e alagado;
  • transforme a variável solo em variáveis indicadoras criando 3 novas colunas: arenoso, argiloso, húmico. Note que um nível não precisa de indicadora pois será representado pela indicação de 0 em todos as indicadoras 12);
  • Importe essa planilha com as variáveis indicadoras para o Rcommander;
  • Ajuste um modelo com as variáveis indicadoras no menu Estatística > Ajuste de Modelos > Modelo Linear.
  • Use a fórmula abaixo para construir o modelo:
colhe ~ arenoso + argiloso + humico 
  • Avalie o modelo com variáveis indicadoras no menu Modelos > Resumir modelo 13) e clique em OK;
  • Para olhar a tabela de partição de variância, vá ao menu Modelos > Testes de hipóteses > Tabela de ANOVA
  • Ajuste um outro modelo chamado lmSolo com a variável solo original, seguindo os mesmo passos anteriores, apenas mudando a fórmula do modelo para:
colhe~solo
  • compare os resultados dos dois modelos (veja os resultados na janela Outputs)

PARA ENTREGAR ANTES DO INÍCIO DA PRÓXIMA AULA

  • Entre em uma conta google e preencha o formulário abaixo.
  • Caso não tenha conta ou não consiga preencher pelo link do formulário, encaminhe as repostas e documentos aos professores (planecousp@gmail.com), indicando como “Assunto”: Modelos Lineares Simples II.

  • 1. Quais os parâmetros que definem a população e seus valores?
  • 2. Porque as estimativas dos parâmetros variam entre os modelos ajustados se todos seguiram o mesmo roteiro?
  • 3. Quais os valores médios estimados de alfa (intercepto), beta (inclinação) e desvio padrão das estimativas de todos os alunos? O valor médio é mais ou menos parecido com o parâmetro populacional? Explique.
  • 4. Qual a fonte principal das variações encontradas nas estimativas dos parâmetros e seu paralelo em um experimento real?
1) , 2)
Em versões mais antigas do Excel, essa função tinha o nome de INV.NORM e para computadores em inglês use a função no seguinte formato: =NORM.INV(RAND(); 0; 7), no calc do LibreOffice use =NORMINV(RAND(),0,7)).
3)
a imagem do resumo do modelo aqui é meramente ilustrativa, não se basei nela como referência
4)
SLOPE no LibreOffice
5)
INTERCEPT no LibreOffice
6)
F.DIST no LibreOffice
7)
desvios quadráticos da regressão dividido pelo soma dos desvios quadrático total
8)
confira que os dados foram lidos corretamente
9)
Quando se tem mais de uma preditora é possível calcular a partição da variação em diferentes sequências, por isso existem tipos diferentes de tabelas de ANOVA
10)
esta é a forma de dizer ao R que nosso modelo não tem preditoras
11)
quando não há nenhuma variável preditora
12)
0;0;0 1;0;0, 0;1;0 e 0;0;1 representando cada uma uma variável. Note que um nível (alagado) não foi representado como dummy, esse será representado pelo 0;0;0 que representa o intercepto do modelo
13)
Models > Summarize model
cursos/planeco/roteiro/08-lm_rcmdr.1582904076.txt.gz · Última modificação: 2020/02/28 12:34 por adalardo