Ferramentas do usuário

Ferramentas do site


cursos:planeco:roteiro:08-lm_base

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anterior Revisão anterior
Próxima revisão
Revisão anterior
cursos:planeco:roteiro:08-lm_base [2024/03/04 16:44]
127.0.0.1 edição externa
cursos:planeco:roteiro:08-lm_base [2024/03/20 17:36] (atual)
Linha 256: Linha 256:
 ==== Esforço Amostral ==== ==== Esforço Amostral ====
  
-Uma outra fonte de imprecisão nas estimativas do no nosso modelo tem relação com o próprio desenho experimental e está associada ao tamanho da nossa amostra. Essa fonte de imprecisão,​ apesar de acoplada à variabilidade do sistema, pode ser minimizada com o aumento do esforço amostral. Vamos simular uma amostra maior para os dados simulados do **Modelo ​I** onde o desvio padrão da população é <wrap hi>7</​wrap>​. Para aumentar o esforço amostral vamos modificar a sequência de valores de ''​x''​ na amplitude de 0,5 a 7,5 para intervalos de 0,14, totalizando 51 observações na nossa amostra. ​+Uma outra fonte de imprecisão nas estimativas do nosso modelo tem relação com o próprio desenho experimental e está associada ao tamanho da nossa amostra. Essa fonte de imprecisão,​ apesar de acoplada à variabilidade do sistema, pode ser minimizada com o aumento do esforço amostral. Vamos simular uma amostra maior para os dados simulados do **Modelo ​II** onde o desvio padrão da população é <wrap hi>14</​wrap>​. Para aumentar o esforço amostral vamos modificar a sequência de valores de ''​x''​ na amplitude de 0,5 a 7,5 para intervalos de 0,14, totalizando 51 observações na nossa amostra. ​
  
-Note que nessa nova simulação de dados não há nenhuma modificação do nosso sistema ou do modelo matemático subjacente. Todos os parâmetros da população e sua variabilidade intrínseca permanecem os mesmos da primeira ​simulação de dados (Modelo ​I). A única modificação é no desenho experimental onde o esforço amostral foi aumentado.+Note que nessa nova simulação de dados não há nenhuma modificação do nosso sistema ou do modelo matemático subjacente. Todos os parâmetros da população e sua variabilidade intrínseca permanecem os mesmos da segunda ​simulação de dados (Modelo ​II). A única modificação é no desenho experimental onde o esforço amostral foi aumentado.
  
 <WRAP center round box 80%> <WRAP center round box 80%>
 +
 Para agilizar a construção desta sequência podemos criar um valor de referência para as observações de 0 a 50 e operar esse valor de referência. Para agilizar a construção desta sequência podemos criar um valor de referência para as observações de 0 a 50 e operar esse valor de referência.
  
-  * na célula **//A2//** inicie em ''​0''​ e crie uma sequencia de inteiros até ''​50''​ (célula **//​A51//​**);​ +  * na célula **//A2//** inicie em ''​0''​ e crie uma sequencia de inteiros até ''​50''​ (célula **//​A51//​**), nomei essa coluna de ''​seq''​
-  * na célula **//B2//** coloque a fórmula ''​=0.5+(1.4*A2)''​ e copie a fórmula para todas a coluna até a célula **//​B51//​**;​ +  * na célula **//B2//** coloque a fórmula ''​=0.5+(0.14*A2)''​ e copie a fórmula para todas a coluna até a célula **//​B51//​** ​isso irá criar nossa nova variável ''​x'';​ 
-  * a partir deste ponto é só seguir os passos da simulação anterior;+  * na coluna **//C//** crie a variável ''​y1''​ com a mesma formula do modelo anterior ''​= 4 + 3.5 * B2''​
 +  * a partir deste ponto é só seguir os passos da simulação anterior ​notando que a variável ''​y1''​ agora está na coluna ''​C''​;
   * garanta que calculou os desvios com ''​INV.NORM.N(ALEATÓRIO();​ 0 ; 14)'',​ como no exemplo anterior;   * garanta que calculou os desvios com ''​INV.NORM.N(ALEATÓRIO();​ 0 ; 14)'',​ como no exemplo anterior;
   * salve os dados simulados em um arquivo para uso posterior;   * salve os dados simulados em um arquivo para uso posterior;
Linha 290: Linha 292:
  
  
-Por exemplo, no  nosso exemplo de anova que contenha  ​a variável preditora ''​solo''  ​com os níveis: ''​arenoso'',​ ''​argiloso''​ e ''​heúmico'',​ cada nível ​ seria representada pelas indicadoras da seguinte forma:+No  nosso exemplo de anova a variável preditora ''​solo'' ​tinha  os níveis: ''​arenoso'',​ ''​argiloso''​ e ''​húmico''​.Neste caso, cada nível ​de ''​solo'' ​seria representada pelas indicadoras da seguinte forma:
  
 <WRAP center round box 60%> <WRAP center round box 60%>
  
-^nível ^ variável indicadoras: ​^ +|    |  ​variável indicadoras: ​  | 
-indica arenoso ​ ​indica húmico ^ +|  nível:  ​ indica arenoso  ​^   indica húmico ​ 
-|arenoso | 0 | 0 | +^arenoso ​     
-|argiloso| 1 | 0 | +^argiloso |     
-|húmico | 0 | 1 |+^húmico ​     |
  
  
 </​WRAP>​ </​WRAP>​
  
-O resultado deste modelo irá apresentar um intercepto e dois coeficientes,​ um associado ao nível ''​argilos'',​ outro ao nível ''​húmico''​. O nível ''​arenoso'',​ não contemplado com uma variável indicadora ((representado por ''​00''​ nas outras indicadoras)) é estimado no intercepto. Essa estimativa do intercepto, no caso do exemplo apresentado na aula de anova, ​ representa a produção média nesse tipo de solo. Os outros coeficientes apresentados pelo modelo representam o quanto os solos ''​argiloso''​ ou ''​húmico''​ são em média diferentes do ''​arenoso''​. ​ Vamos criar um modelo e interpretar os coeficientes em um conjunto de dados que tem a variável ''​solo''​ agora com quatro níveis.+O resultado deste modelo irá apresentar um intercepto e dois coeficientes,​ um associado ao nível ''​argiloso'',​ outro ao nível ''​humico''​. O nível ''​arenoso'',​ não contemplado com uma variável indicadora ((representado por ''​00''​ nas outras indicadoras)) é estimado no intercepto. Essa estimativa do intercepto, no caso do exemplo apresentado na aula de anova, ​ representa a produção média nesse tipo de solo. Os outros coeficientes apresentados pelo modelo representam o quanto os solos ''​argiloso''​ ou ''​humico''​ são em média diferentes do ''​arenoso''​. ​ Vamos criar um modelo e interpretar os coeficientes em um conjunto de dados que tem a variável ''​solo''​ agora com quatro níveis.
  
  
Linha 309: Linha 311:
    * baixe o arquivo {{ :​planeco:​roteiro:​colheita.csv |}};    * baixe o arquivo {{ :​planeco:​roteiro:​colheita.csv |}};
    * abra no excel;    * abra no excel;
-   * note que a variável ''​solo''​ tem agora 4 níveis: ''​arenoso'',​ ''​argiloso'',​ ''​húmico''​ e ''​alagado'';​+   * note que a variável ''​solo''​ tem agora 4 níveis: ''​arenoso'',​ ''​argiloso'',​ ''​humico''​ e ''​alagado'';​
    * calcule a média de produtividade para cada tipo de ''​solo'';​    * calcule a média de produtividade para cada tipo de ''​solo'';​
    * Importe o arquivo original ''​colheita.csv''​ para o Rcommander;    * Importe o arquivo original ''​colheita.csv''​ para o Rcommander;
Linha 327: Linha 329:
 <WRAP center round box 100%> <WRAP center round box 100%>
    * abra o arquivo {{ :​planeco:​roteiro:​colheita.csv |colheita.csv}} no excel;    * abra o arquivo {{ :​planeco:​roteiro:​colheita.csv |colheita.csv}} no excel;
-   * crie 3 novas colunas nomeadas de: ''​arenoso'',​ ''​argiloso'',​ ''​húmico''​.  +   * crie 3 novas colunas nomeadas de: ''​arenoso'',​ ''​argiloso'',​ ''​humico''​.  
-   * para cada observação (linha) represente o nível do solo com o valor ''​1''​ na respectiva indicadora e ''​0''​ nas outras. Note que um nível não precisa de indicadora pois será representado pela indicação de ''​0''​ em todas as indicadoras,​ no nosso caso o nível ''​alagado''​ ((os valores ''​0;​0;​0''​ ''​1;​0;​0'',​ ''​0;​1;​0''​ e ''​0;​0;​1''​ em cada indicadora representam respectivamente:​ ''​alagado'',''​arenoso'',​ ''​argiloso''​ e ''​húmico''​));​+   * para cada observação (linha) represente o nível do solo com o valor ''​1''​ na respectiva indicadora e ''​0''​ nas outras. Note que um nível não precisa de indicadora pois será representado pela indicação de ''​0''​ em todas as indicadoras,​ no nosso caso o nível ''​alagado''​ ((os valores ''​0;​0;​0''​ ''​1;​0;​0'',​ ''​0;​1;​0''​ e ''​0;​0;​1''​ em cada indicadora representam respectivamente:​ ''​alagado'',''​arenoso'',​ ''​argiloso''​ e ''​humico''​));​
    * salve a planilha no formato ''​.csv'';​    * salve a planilha no formato ''​.csv'';​
    * importe essa planilha com as variáveis indicadoras para o Rcommander;    * importe essa planilha com as variáveis indicadoras para o Rcommander;
Linha 485: Linha 487:
    * em uma coluna chamada **desvio total** calcule o desvio total de cada observação (o crescimento observado menos a média do crescimento); ​    * em uma coluna chamada **desvio total** calcule o desvio total de cada observação (o crescimento observado menos a média do crescimento); ​
    * nomei uma coluna **desvios quadráticos totais** e eleve ao quadrado os valores da coluna criada anteriormente;​    * nomei uma coluna **desvios quadráticos totais** e eleve ao quadrado os valores da coluna criada anteriormente;​
-   * some esses valores para obter a soma dos desvios quadráticos total ao final desta coluna;+   * some esses valores para obter a soma dos desvios quadráticos total nomeado como **Variação Total** ​  
    * calcule o valor predito pelo modelo em uma coluna chamada **predito**;​    * calcule o valor predito pelo modelo em uma coluna chamada **predito**;​
  
Linha 513: Linha 515:
   * em uma coluna chamada **residuo** calcule a diferença entre cada observação e o respectivo valor predito pelo modelo;   * em uma coluna chamada **residuo** calcule a diferença entre cada observação e o respectivo valor predito pelo modelo;
   * crie uma outra coluna (**residuo^2**) com os valores de resíduos quadrático do modelo para cada observação (observado menos o predito pelo modelo ao quadrado);   * crie uma outra coluna (**residuo^2**) com os valores de resíduos quadrático do modelo para cada observação (observado menos o predito pelo modelo ao quadrado);
-  * some os desvios quadráticos dos resíduos para calcular a soma dos desvios quadráticos do modelo; +  * some os desvios quadráticos dos resíduos para calcular a soma dos desvios quadráticos do modelo ​e nomeie esse valor como **Variação Resido^2**
-  * faça a diferença entre a soma dos desvios quadráticos total pela soma dos desvios quadráticos dos resíduos para calcular a ''​soma dos desvios quadráticos explicada pelo modelo''​+  * faça a diferença entre a soma dos desvios quadráticos total pela soma dos desvios quadráticos dos resíduos para calcular a ''​Variação Explicada'' ​pelo modelo;
  
 +
 +/* 
 +
 +  * defina os valores de graus de liberdade da variação explicada pelo modelo e da não explicada;
 +  * calcule a razão entre as variação média explicada e a média não explicada, denominando esse valor de **F**;
 +  * calcule o p-valor associado ao valor da estatística **F**;
 +  * calcule o coeficiente de determinação deste modelo e nomei de **R2**.
 +
 +*/
  
  
Linha 529: Linha 540:
  
  
-  * construa uma tabela de anova na mesma planiha, contendo+ <​WRAP center round box 90%> 
 + 
 + 
 +==== Tabela de Anova Dieta de Lagarta ==== 
 + 
 +tabela de anova tem as seguintes colunas e linhas: 
 + 
     * colunas: ''​soma quadrática'',​ ''​graus de liberdade'',​ ''​média quadrática'',​ ''​F''​ e ''​p-valor''​     * colunas: ''​soma quadrática'',​ ''​graus de liberdade'',​ ''​média quadrática'',​ ''​F''​ e ''​p-valor''​
     * linhas: ''​Modelo'',​ ''​Resíduo'',​ ''​Total''​     * linhas: ''​Modelo'',​ ''​Resíduo'',​ ''​Total''​
-  * Complete a tabela 
  
 <WRAP center round box 80%> <WRAP center round box 80%>
Linha 538: Linha 554:
   * monte uma tabela de ANOVA com as somas quadráticas como no [[cursos:​planeco:​roteiro:​07-classrcmdr#​anovaanalise_de_variancia|tutorial de anova]];   * monte uma tabela de ANOVA com as somas quadráticas como no [[cursos:​planeco:​roteiro:​07-classrcmdr#​anovaanalise_de_variancia|tutorial de anova]];
  
-<WRAP center round tip 80%>+<WRAP center round tip 90%> 
 + 
  
 ==== Equações ==== ==== Equações ====
Linha 558: Linha 576:
  
 </​WRAP>​ </​WRAP>​
 + 
   * Calcule o p-valor associado à estatística F do modelo   * Calcule o p-valor associado à estatística F do modelo
  
 <WRAP center round tip 90%> <WRAP center round tip 90%>
  
-Utilize no excel o valor ** 1- DIST.F(F, df1, df2, VERDADEIRO)((F.DIST no LibreOffice))** para o calculo ​do p-valor sendo F o valor da estatística F calculada, ''​df1''​ o grau de liberdade da regressão (normalmente 1) e ''​df2''​ o valor de graus de liberdade do cálculo dos desvios quadráticos médios dos resíduos (''​n - 2''​). ​+Utilize no excel o valor  ''​1- DIST.F(F, df1, df2, VERDADEIRO)((F.DIST no LibreOffice))'' ​para o cálculo ​do p-valor sendo F o valor da estatística F calculada, ''​df1''​ o grau de liberdade da regressão (normalmente ​''​1''​) e ''​df2''​ o valor de graus de liberdade do cálculo dos desvios quadráticos médios dos resíduos (''​n - 2''​) ​que é o número de observações menos dois graus relativos ao cálculo do intercepto e da inclinação
 </​WRAP>​ </​WRAP>​
  
Linha 578: Linha 596:
  
 </​WRAP>​ </​WRAP>​
 +</​WRAP>​
 +
  
  
Linha 657: Linha 677:
  
  
-Na comparação de modelos a razão de variância é relacionada ao quanto o modelo mais complexo explica da variação dos dados em relação ao modelo mais simples. De uma certa forma, a ''​tabela de ANOVA''​ no R sempre apresenta a partição da variância da comparação de dois modelos aninhados. A ''​tabela de ANOVA''​ de um modelo isolado é equivalente a comparar o modelo em questão com o modelo nulo correspondente. O entendimento desses conceitos é fundamental para utilizarmos ​ a partição de variação como crítério para a tomada de decisão sobre qual modelo melhor explica nossos dados.+Na comparação de modelos a razão de variância é relacionada ao quanto o modelo mais complexo explica da variação dos dados em relação ao modelo mais simples. De uma certa forma, a ''​tabela de ANOVA''​ no R sempre apresenta a partição da variância da comparação de dois modelos aninhados. A ''​tabela de ANOVA''​ de um modelo isolado é equivalente a comparar o modelo em questão com o modelo ​mínimo (nulocorrespondente. O entendimento desses conceitos é fundamental para utilizarmos a partição de variação como crítério para a tomada de decisão sobre qual modelo melhor explica nossos dados.
  
 <WRAP center round box 60%> <WRAP center round box 60%>
Linha 668: Linha 688:
  
  
-Nesse ponto, é desejável que tenha entendido que a partição da variância de um modelo é correspondente a compará-lo com o modelo nulo, ou seja, quanta variância o modelo é capaz de explicar em relação ao modelo ​nuloEsse modelo ​nulorepresenta o modelo mais simples com a variação total dos dados e é representado por apenas um parâmetro, a média da variável resposta. ​ +Nesse ponto, é desejável que tenha entendido que a partição da variância de um modelo é correspondente a compará-lo com o modelo ​mínimo (nulo), ou seja, quanta variância o modelo é capaz de explicar em relação ao modelo ​sem nenhuma preditoraEste modelo ​mínimo, representado por apenas um parâmetro, a média da variável resposta, apresenta toda a variação dos dados contida nos seus resíduos
  
  
cursos/planeco/roteiro/08-lm_base.1709581484.txt.gz · Última modificação: 2024/03/04 16:44 por 127.0.0.1