Ferramentas do usuário

Ferramentas do site


cursos:planeco:roteiro:09-lm02b

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anterior Revisão anterior
Próxima revisão
Revisão anterior
cursos:planeco:roteiro:09-lm02b [2022/04/15 13:15]
adriana
cursos:planeco:roteiro:09-lm02b [2022/04/15 17:03]
adriana
Linha 34: Linha 34:
 */ */
  
-Esse R<​sup>​2</​sup>​ é obtido ajustando um modelo linear múltiplo para analisar a relação entre cada variável preditora, por exemplo //i// = X<​sub>​1</​sub>,​ e todas as outras preditoras no modelo de interesse (X<​sub>​2</​sub>,​ X<​sub>​3</​sub>,​...,​ X<​sub>​n</​sub>​). Fazendo isso para todas as preditoras teremos um ''​VIF''​ para cada uma delas. Um alto R<​sup>​2</​sup>​ significa que grande parte da variação na preditora em questão é compartilhada pelas outras variáveis. ​+Esse R<​sup>​2</​sup>​ é obtido ajustando um modelo linear múltiplo para analisar a relação entre cada variável preditora, por exemplo //i// = X<​sub>​1</​sub>,​ e todas as outras preditoras no modelo de interesse (X<​sub>​2</​sub>,​ X<​sub>​3</​sub>,​...,​ X<​sub>​n</​sub>​). Fazendo isso para todas as preditoras teremos um ''​VIF''​ para cada uma delas. Um alto R<​sup>​2</​sup>​ significa que grande parte da variação na preditora em questão é compartilhada pelas outras variáveis. Veja no exemplo abaixo um passo-a-passo para calcular o ''​VIF''​.
  
 Quanto maior for o valor do ''​VIF'',​ mais os valores de erro padrão dos parâmetros do modelo serão inflados e mais dificilmente um efeito será detectado. Além da imprecisão nas estimativas dos parâmetros colineares, um outro problema que pode emergir é o modelo mínimo adequado ser diferente, dependendo da ordem da simplificação do modelo cheio. Um valor frequentemente usado para definir um limite aceitável de ''​VIF''​ é 4,0, acima desse valor as estimativas do modelo podem ficar comprometidas. Quanto maior for o valor do ''​VIF'',​ mais os valores de erro padrão dos parâmetros do modelo serão inflados e mais dificilmente um efeito será detectado. Além da imprecisão nas estimativas dos parâmetros colineares, um outro problema que pode emergir é o modelo mínimo adequado ser diferente, dependendo da ordem da simplificação do modelo cheio. Um valor frequentemente usado para definir um limite aceitável de ''​VIF''​ é 4,0, acima desse valor as estimativas do modelo podem ficar comprometidas.
- 
-A função que utilizaremos no R para calcular o ''​VIF''​ utiliza uma variante chamada ''​GVIF'',​ uma generalização que pode ser aplicada também para variáveis categóricas com a mesma interpretação colocada acima((o ''​GVIF''​ foi desenvolvida pelo John Fox, mesmo autor do Rcmdr. Veja o artigo no link [[https://​www.tandfonline.com/​doi/​abs/​10.1080/​01621459.1992.10475190]])).  ​ 
  
 Nessa abordagem, após identificar quais são as variáveis com maiores valores de VIF, elas serão removidas sequencialmente. A cada variável retirada verifica-se novamente se os valores de VIF diminuíram ou se ainda precisam ser retiradas outras variáveis colineares. ​ Nessa abordagem, após identificar quais são as variáveis com maiores valores de VIF, elas serão removidas sequencialmente. A cada variável retirada verifica-se novamente se os valores de VIF diminuíram ou se ainda precisam ser retiradas outras variáveis colineares. ​
  
-Vamos ver como isso funciona na prática abaixo. 
  
 <WRAP center round important 90%> <WRAP center round important 90%>
Linha 49: Linha 46:
 </​WRAP>​ </​WRAP>​
  
 +Vamos ver como isso funciona na prática abaixo.
 +\\
  
-====Aves e Clima==== 
  
-{{:​cursos:​planeco:​roteiro:​Figura2_Aves_Mundo_Triantis&​Matthews2020_Nature.png?nolink&200 |}}+====Biomassa de manguezais e variáveis ambientais==== 
 + 
 +{{:​cursos:​planeco:​roteiro:​MaguezalMarajo2.jpg?nonlink&300|http://​www.imagensdobrasil.art.br/​produtos/​3148/​3/​15/​Mangue_de_Maraj%C3%B3#​.YlmY-1zMKV4}}
 \\ \\
  
-O objetivo dessa pesquisa foi avaliar quais variáveis ​climáticas ​predizem melhor a riqueza ​de aves em diferentes locais do mundo. Foram utilizadas ​variáveis ​climáticas ​que são facilmente obtidas em bases de dados mundiais ​sobre clima +O objetivo dessa pesquisa foi avaliar quais variáveis ​ambientais ​predizem melhor a biomassa acima do solo (Aboveground Biomass-AGB) ​de manguezais ​em diferentes locais do mundo((dados fictícios, mas baseados em valores reais)). Foram utilizadas ​variáveis ​ambientais ​que são facilmente obtidas em bases de dados mundiais.
 \\ \\
-\\ 
- 
- 
  
-1. Baixe o conjunto de dados {{ :​cursos:​planeco:​roteiro:​birds_clim.csv |}} ((adaptado do conjunto de dados "​Sa"​ disponível na página da disciplina ECP00117 - Introdução aos Modelos Lineares em Ecologia, da UFG - link: https://​www.ecoevol.ufg.br/​adrimelo/​lm/​)), importe para o Rcmdr, usando __vírgula__ como separador de campo, e visualize os dados para entender o arquivo.+1. Baixe o conjunto de dados {{ :​cursos:​planeco:​roteiro:​mangrove.csv |mangrove.csv}}, importe para o Rcmdr, usando __vírgula__ como separador de campo, e visualize os dados para entender o arquivo.
  
 2. Entenda as variáveis do arquivo:  ​ 2. Entenda as variáveis do arquivo:  ​
-  * variável resposta: ​ **TotalBirdsRichness** = Riqueza ((Conforme veremos no próximo bloco de atividades, essa variável resposta deveria ser analisada utilizando um modelo linear generalizado GLM, mas nesse momento pedimos uma "​licença didática"​ para utilizarmos modelos lineares múltiplos. Recomendamos que depois vocês refaçam essa análise usando um GLM adequado.)) total de aves registradas ​no local+  * variável resposta: ​ 
 +             * **AGB_carbon** = Estoque ​de Carbono estimado a partir da biomassa acima do solo (AGB) de árvores de manguezais (MgC/​ha) ​no hemisfério sul
   * variáveis preditoras:   * variáveis preditoras:
-             * **AET** = evapotranspiração real +             * **lat** = latitude ​(em graus)((Os dados são predominantemente do hemisfério sul e por isso seriam esperados valores negativos de latitude, porém foram transformados em valores positivos para facilitar a interpretação. Alguns valores do hemisfério norte aparecem como negativos na planilha))  
-             * **PET** = evapotranspiração potencial +             * **temp** = Temperatura média ​anual (em graus Celsius
-             * **AnnualTemperature** = Temperatura média anual (em Farenheit+             * **ppt** = Precipitação anual (mm)
-             * **MinimumTemperature** = Temperatura média ​mínima ​(em Farenheit+
-             * **Rain** = Precipitação anual (mm) +
  
  
 3. Inspecione a correlação entre todas as variáveis preditoras contínuas: 3. Inspecione a correlação entre todas as variáveis preditoras contínuas:
  
-Para fazer isso, você tem duas opções ​no Rcmdr:+Para fazer isso no //Rcmdr//, você tem duas opções:
  
-  * Uma opção é avaliar numericamente as correlações. Para isso, entre em **Estatísticas-> Resumos ​-> Matriz de Correlação**, selecione todas as variáveis preditoras ​contínuas ​e clique em OK. Você verá os valores de correlação de todos os pares de variáveis. Observando os valores mais altos de correlação,​ você já pode ter uma ideia se existem variáveis com potencial para apresentar colinearidade. ​+  * Uma opção é avaliar numericamente as correlações. Para isso, entre em **Statistics-> Summary ​-> Correlation Matrix**, selecione todas as variáveis preditoras e clique em OK. Você verá os valores de correlação de todos os pares de variáveis. Observando os valores mais altos de correlação,​ você já pode ter uma ideia se existem variáveis com potencial para apresentar colinearidade. ​
  
 +  * Outra opção é avaliar graficamente as correlações entre as variáveis. Para isso, entre em **Graphics -> Dispersion Matrix** e selecione todas as variáveis preditoras contínuas. Na aba **Options** selecione "​Minimum Square Line" e clique em OK. Na figura que foi gerada, você poderá avaliar quais pares de variáveis parecem ter uma maior correlação entre elas.
  
-  * Outra opção é avaliar graficamente as correlações entre as variáveis. Para isso, entre em **Gráficos -> Matriz de Dispersão** e selecione todas as variáveis preditoras contínuas. Na aba **Opções** selecione "​Linhas de quadrados mínimos"​ e clique em OK. Na figura que foi gerada, você poderá avaliar quais pares de variáveis parecem ter uma maior correlação entre elas. +<WRAP center round important ​90%>
- +
-<WRAP center round important ​80%>+
 Esse procedimento de analisar a correlação entre todas as nossas variáveis preditoras contínuas deveria ser sempre realizado antes de fazermos nossas análises. ​ Esse procedimento de analisar a correlação entre todas as nossas variáveis preditoras contínuas deveria ser sempre realizado antes de fazermos nossas análises. ​
 </​WRAP>​ </​WRAP>​
  
  
-4. Ajuste um modelo ​incluindo ​todas as variáveis ​e coloque "​modbird1"​ como nome do modelo. Neste momento não inclua ​as interações. No resumo ​do modelo, repare nos efeitos e na significância de cada um dos parâmetros.+4. Ajuste um modelo, relacionando AGB-carbon com todas as variáveis ​preditoras, mas ainda sem incluir ​as interações. Nomeie esse modelo como "​carbon1"​. No //​summary// ​do modelo, repare nos efeitos e na significância de cada um dos parâmetros.
  
  
-5. Calcule os VIFs para as variáveis incluídas no modelo+5. Calcule os VIFs((A função utilizada no //Rcmdr// para calcular o ''​VIF''​ utiliza uma variante chamada ''​GVIF'',​ uma generalização que pode ser aplicada também para variáveis categóricas com a mesma interpretação colocada acima o ''​GVIF''​ foi desenvolvida pelo John Fox, mesmo autor do Rcmdr. Veja o artigo no link [[https://​www.tandfonline.com/​doi/​abs/​10.1080/​01621459.1992.10475190]])) ​para as variáveis incluídas no modelo
  
-Para isso, entre em **Modelos ​-> Diagnóstico numérico ​-> Fatores de Inflação de Variância**. +Para isso, entre em **Models ​-> Numerical diagnostics ​-> Variance-inflation factors**. O primeiro resultado apresentado é uma linha com os valores de VIF para cada parâmetro do modelo. O segundo resultado apresentado é uma matriz de correlação das __estimativas dos parâmetros__. Note que os valores são diferentes das correlações feitas diretamente para as variáveis (item 3, acima).
-O primeiro resultado apresentado é uma linha com os valores de VIF para cada parâmetro do modelo. O segundo resultado apresentado é uma matriz de correlação das __estimativas dos parâmetros__. Note que os valores são diferentes das correlações feitas diretamente para as variáveis (item 3, acima).+
  
-<WRAP center round important ​80%> +<WRAP center round important ​90%> 
-Importante: Como o valor de VIF de cada parâmetro depende de quais outros parâmetros estão sendo incluídos no modelo, só é possível calcular os VIFs depois de ter ajustado um modelo. ​Fique sempre atento(a) se o modelo ativo é o modelo para o qual você quer calcular os VIFs.+Importante: Como o valor de VIF de cada parâmetro depende de quais outros parâmetros estão sendo incluídos no modelo, só é possível calcular os VIFs depois de ter ajustado um modelo. ​Ao usar o //Rcmdr//, fique sempre atento(a) se o modelo ativo é realmente ​o modelo para o qual você quer calcular os VIFs.
 </​WRAP>​ </​WRAP>​
  
-6. Pausa para checar os valores dos VIFs: 
  
-Vamos agora checar se está claro como o VIF é calculado. Em primeiro lugar, reveja a equação de cálculo de VIF apresentada acima.+<WRAP center round box 70%>
  
-Vamos calcular manualmente ​o valor de VIF para uma variável preditora e comparar com o valor obtido acima no Rcmdr. Para isso, precisamos calcular o R<​sup>​2</​sup>​ da relação entre essa variável preditora e todas as outras preditoras que estavam nesse modelo ("​modbird1"​). Para isso, essa variável preditora na qual estamos interessados em calcular o VIF (especificamente para esse modelo completo) passará agora a ser a variável resposta de um novo modelo que criaremos. Então, vamos fazer isso para a variável AET:+**PAUSA OPCIONAL** caso você queira aprender a calcular manualmente ​os valores ​de VIF:
  
-Entre em **Estatísticas ​-> Ajuste de Modelos ​-> Modelo ​Linear**. Coloque ​AET como variável resposta ​na caixa da esquerda da equação e coloque as outras ​variáveis preditoras na caixa da direita da equação. Defina o nome desse modelo como "vif_aet". No resumo ​do modelo será apresentado ​um valor de R<​sup>​2</​sup>​ Múltiplo (//Multiple R-square//​). Utilize esse valor na equação de cálculo de VIF e veja se o resultado é igual ao valor de VIF calculado pelo Rcmdr. Deveria ser. Se não foi, peça ajuda a alguém da equipe.+Em primeiro lugar, reveja a equação de cálculo de VIF apresentada acima. 
 + 
 +Agora, vamos calcular manualmente o valor de VIF para a variável preditora **lat** e comparar com o valor obtido acima no //Rcmdr//. Para isso, precisamos calcular o R<​sup>​2</​sup>​ da relação entre essa variável preditora e todas as outras preditoras que estavam no modelo completo, sem as interações (carbon1). Para isso, vamos criar um novo modelo no qual a variável para a qual estamos interessados em calcular o VIF (**lat**) passará agora a ser a __variável resposta__ desse novo modelo que criaremos.  
 + 
 +Entre em **Statistics ​-> Fit models ​-> Linear ​model**. Coloque ​**lat** ​como __variável resposta__ ​na caixa da esquerda da equação e coloque as outras ​variáveis preditoras ​(**temp** + **ppt**) ​na caixa da direita da equação. Defina o nome desse modelo como "viflat". No //​summary// ​do modelo será apresentado ​valor de R<​sup>​2</​sup>​ Múltiplo (//Multiple R-square//​). Utilize esse valor na equação de cálculo de VIF e veja se o resultado é igual ao valor de VIF calculado pelo R Commander para a variável **lat** a partir do modelo "​carbon1"​ feito acima. Deveria ser. Se não foi, peça ajuda a alguém da equipe.
  
 Repita o mesmo procedimento para outra variável de sua escolha. Você pode fazer isso para todas as variáveis do modelo, se quiser. Repita o mesmo procedimento para outra variável de sua escolha. Você pode fazer isso para todas as variáveis do modelo, se quiser.
  
 +</​WRAP>​
  
 +Continuando nossa análise sobre o estoque de Carbono em manguezais:
  
-7**Continuando nossa análise:** Analisando o resultado ​dos VIFs, se houver alguma variável com valor maior que 4, ajuste um novo modelo no qual a variável com o maior VIF seja removida. Coloque "modbird2" como nome desse modelo. Olhe para o //summary// desse modelo e para as variáveis que permaneceram nele. Cheque os valores dos coeficientes e a significância de cada variável em relação ao modelo "modbird1". Houve alguma alteração?​ Alguma variável deixou de ser significativa?​ Alguma variável passou a ser significativa?​ O sinal do efeito mudou? ​ +6Após analisar os valores ​dos VIFs do modelo "​carbon1"​, se houver alguma variável com valor maior que 4, remova ​a variável com o maior VIF e ajuste um novo modelo. Coloque "carbon2" como nome desse modelo. Olhe para o //summary// desse modelo e para as variáveis que permaneceram nele. Cheque os valores dos coeficientes e a significância de cada variável em relação ao modelo "carbon1"​. ​**Houve alguma alteração?​ Alguma variável deixou de ser significativa?​ Alguma variável passou a ser significativa?​ O sinal do efeito mudou?** 
-Depois, calcule os VIFs das variáveis do "​modbird2"​ e veja se ainda tem alguma variável com VIF maior que 4.+
  
-8Repita esses procedimentos até não haver nenhuma ​variável com VIF maior que 4.+7Calcule os VIFs das variáveis do modelo "​carbon2"​ usando o caminho **Models -> Numerical diagnostics -> Variance-inflation factors** e veja se ainda tem alguma ​variável com VIF maior que 4.
  
-9Mesmo sem ter variáveis colineares, é possível que algumas das variáveis remanescentes ​não sejam relevantes para definir o número de espécies de aves. Então, agora, crie um modelo completo, ​que inclua as variáveis remanescentes e suas interações e realize o procedimento de seleção do modelo mínimo plausível pelo método de simplificação para o mínimo adequado, conforme explicado no roteiro I de MLM.+8Repita os procedimentos anteriores até não haver nenhuma variável com VIF maior que 4.
  
-10. Analise ​os resultados ​do modelo ​final.+9. E possível que algumas das variáveis remanescentes,​ mesmo que não sejam colineares entre si, não sejam relevantes para definir o estoque de carbono em manguezais. Então, para iniciar o procedimento de seleção de modelos, crie um modelo completo ​ que inclua as variáveis remanescentes **e suas interações** (nomeie como "​carbon_int"​). Analise ​o //summary//do modelo.
  
 +10. Realize o procedimento de seleção do modelo mínimo plausível pelo método de simplificação para o mínimo adequado, conforme explicado no item [[cursos:​planeco:​roteiro:​09-lm02#​simplificando_modelos|Simplificando modelos]] do roteiro I de Modelos Lineares Múltiplos]] ​
  
-===== Modelos Lineares Múltiplos: preditoras contínuas e categóricas =====+11. Analise os resultados do modelo final. 
 +\\ 
 +\\ 
 +\\
  
-{{:​cursos:​planeco:​roteiro:​plotBabies01.png?​400 ​ |}} 
  
  
-Nesse último tópico do bloco vamos resgatar os principais conceitos que emergiram com a generalização do modelo linear, agora com múltiplas preditoras, a partir de um exemplo que tem duas variáveis ​preditoras contínuas e duas categórica. Acreditamos que esse exemplo incorpora as complexidades tratadas e ajuda a agrupar os tópicos que devem ficar atentos nos modelos com múltiplas preditoras. ​    +===== Modelos Lineares Múltiplos: ​preditoras contínuas e categóricas =====
  
 +{{:​cursos:​planeco:​roteiro:​plotBabies01.png?​300 ​ |}}
 +
 +\\
 +\\
 +\\
 +\\
 +Nesse último tópico do bloco vamos resgatar os principais conceitos que emergiram com a generalização do modelo linear, agora com múltiplas preditoras, a partir de um exemplo que tem duas variáveis preditoras contínuas e duas categórica. Acreditamos que esse exemplo incorpora as complexidades tratadas e ajuda a agrupar os tópicos que devem ficar atentos nos modelos com múltiplas preditoras. ​    
 +\\
 +\\
 +\\ 
 +\\
 +\\
 +\\
 +\\
  
 <WRAP center round box 60%> <WRAP center round box 60%>
Linha 147: Linha 160:
   * compreender os termos de interação;​   * compreender os termos de interação;​
   * compor o predito pelo modelo a partir dos coeficientes;​   * compor o predito pelo modelo a partir dos coeficientes;​
-  * interpretar ​biológicamente ​o resultado do modelo.+  * interpretar ​biologicamente ​o resultado do modelo.
  
  
 </​WRAP>​ </​WRAP>​
 +\\
 +\\
  
 ==== VIF e as interações ==== ==== VIF e as interações ====
cursos/planeco/roteiro/09-lm02b.txt · Última modificação: 2022/04/15 17:03 por adriana