Diferenças
Aqui você vê as diferenças entre duas revisões dessa página.
| — | cursos:planeco:roteiro:09-lm02b [2025/10/03 20:25] (atual) – criada - edição externa 127.0.0.1 | ||
|---|---|---|---|
| Linha 1: | Linha 1: | ||
| + | ====== Modelos Lineares Múltiplos III ====== | ||
| + | ===== Interação entre preditoras e Colinearidade ===== | ||
| + | |||
| + | <WRAP center round box 80%> | ||
| + | {{ youtube> | ||
| + | |||
| + | </ | ||
| + | Neste terceiro e último roteiro sobre Modelos Lineares Múltiplos vamos trabalhar com conjuntos de dados com **variáveis preditoras contínuas**. Inicialmente, | ||
| + | |||
| + | \\ | ||
| + | |||
| + | <WRAP center round tip 90%> | ||
| + | No seu blog, [[https:// | ||
| + | |||
| + | </ | ||
| + | |||
| + | |||
| + | ===== Colinearidade entre variáveis ===== | ||
| + | |||
| + | |||
| + | {{: | ||
| + | |||
| + | Uma importante premissa de modelos lineares múltiplos é que as variáveis preditoras sejam independentes entre si. Entretanto, em estudos observacionais ou exploratórios é relativamente comum que as variáveis preditoras não sejam independentes. Quando duas variáveis preditoras estão correlacionadas e estão explicando a mesma porção da variância da variável resposta estamos diante de um problema de colinearidade. Nos casos mais extremos, a colinearidade pode afetar a significância de algumas variáveis e até mesmo o sinal do efeito. | ||
| + | |||
| + | Existem várias formas de lidar com a colinearidade, | ||
| + | |||
| + | $$ VIF_{i} = \frac{1}{1 - R_{i}^{2}} $$ | ||
| + | |||
| + | |||
| + | /* | ||
| + | |||
| + | {{: | ||
| + | |||
| + | VIF< | ||
| + | |||
| + | Essa equação estava dando problemas em alguns browsers, por isso troquei por uma figura | ||
| + | |||
| + | */ | ||
| + | |||
| + | Esse R< | ||
| + | |||
| + | Quanto maior for o valor do '' | ||
| + | |||
| + | Nessa abordagem, após identificar quais são as variáveis com maiores valores de VIF, elas serão removidas sequencialmente. A cada variável retirada verifica-se novamente se os valores de VIF diminuíram ou se ainda precisam ser retiradas outras variáveis colineares. | ||
| + | |||
| + | |||
| + | <WRAP center round important 90%> | ||
| + | |||
| + | É importante entender que a escolha de qual variável retirar vai depender também do sentido biológico/ | ||
| + | </ | ||
| + | |||
| + | Vamos ver como isso funciona na prática abaixo. | ||
| + | \\ | ||
| + | |||
| + | |||
| + | ====Biomassa de manguezais e variáveis ambientais==== | ||
| + | |||
| + | {{: | ||
| + | \\ | ||
| + | |||
| + | O objetivo dessa pesquisa foi avaliar quais variáveis ambientais predizem melhor a biomassa acima do solo (Aboveground Biomass-AGB) de manguezais em diferentes locais do mundo((dados fictícios, mas baseados em valores reais)). Foram utilizadas 3 variáveis ambientais que são facilmente obtidas em bases de dados mundiais. | ||
| + | \\ | ||
| + | |||
| + | 1. Baixe o conjunto de dados {{ : | ||
| + | |||
| + | 2. Entenda as variáveis do arquivo: | ||
| + | * variável resposta: | ||
| + | * **AGB_carbon** = Estoque de Carbono estimado a partir da biomassa acima do solo (AGB) de árvores de manguezais (MgC/ha) no hemisfério sul | ||
| + | * variáveis preditoras: | ||
| + | * **lat** = latitude (em graus)((Os dados são predominantemente do hemisfério sul e por isso seriam esperados valores negativos de latitude, porém foram transformados em valores positivos para facilitar a interpretação. Alguns valores do hemisfério norte aparecem como negativos na planilha)) | ||
| + | * **temp** = Temperatura média anual (em graus Celsius) | ||
| + | * **ppt** = Precipitação anual (mm) | ||
| + | |||
| + | |||
| + | 3. Inspecione a correlação entre todas as variáveis preditoras contínuas: | ||
| + | |||
| + | Para fazer isso no //Rcmdr//, você tem duas opções: | ||
| + | |||
| + | * Uma opção é avaliar numericamente as correlações. Para isso, entre em **Statistics-> | ||
| + | |||
| + | * Outra opção é avaliar graficamente as correlações entre as variáveis. Para isso, entre em **Graphics -> Dispersion Matrix** e selecione todas as variáveis preditoras contínuas. Na aba **Options** selecione " | ||
| + | |||
| + | <WRAP center round important 90%> | ||
| + | Esse procedimento de analisar a correlação entre todas as nossas variáveis preditoras contínuas deveria ser sempre realizado antes de fazermos nossas análises. | ||
| + | </ | ||
| + | |||
| + | |||
| + | 4. Ajuste um modelo, relacionando AGB-carbon com todas as variáveis preditoras, mas ainda sem incluir as interações. Nomeie esse modelo como " | ||
| + | |||
| + | |||
| + | 5. Calcule os VIFs((A função utilizada no //Rcmdr// para calcular o '' | ||
| + | |||
| + | Para isso, entre em **Models -> Numerical diagnostics -> Variance-inflation factors**. O primeiro resultado apresentado é uma linha com os valores de VIF para cada parâmetro do modelo. O segundo resultado apresentado é uma matriz de correlação das __estimativas dos parâmetros__. Note que os valores são diferentes das correlações feitas diretamente para as variáveis (item 3, acima). | ||
| + | |||
| + | <WRAP center round important 90%> | ||
| + | Importante: Como o valor de VIF de cada parâmetro depende de quais outros parâmetros estão sendo incluídos no modelo, só é possível calcular os VIFs depois de ter ajustado um modelo. Ao usar o //Rcmdr//, fique sempre atento(a) se o modelo ativo é realmente o modelo para o qual você quer calcular os VIFs. | ||
| + | </ | ||
| + | |||
| + | |||
| + | <WRAP center round box 70%> | ||
| + | |||
| + | **PAUSA OPCIONAL** caso você queira aprender a calcular manualmente os valores de VIF: | ||
| + | |||
| + | Em primeiro lugar, reveja a equação de cálculo de VIF apresentada acima. | ||
| + | |||
| + | Agora, vamos calcular manualmente o valor de VIF para a variável preditora **lat** e comparar com o valor obtido acima no //Rcmdr//. Para isso, precisamos calcular o R< | ||
| + | |||
| + | Entre em **Statistics -> Fit models -> Linear model**. Coloque **lat** como __variável resposta__ na caixa da esquerda da equação e coloque as outras 2 variáveis preditoras (**temp** + **ppt**) na caixa da direita da equação. Defina o nome desse modelo como " | ||
| + | |||
| + | Repita o mesmo procedimento para outra variável de sua escolha. Você pode fazer isso para todas as variáveis do modelo, se quiser. | ||
| + | |||
| + | </ | ||
| + | |||
| + | Continuando nossa análise sobre o estoque de Carbono em manguezais: | ||
| + | |||
| + | 6. Após analisar os valores dos VIFs do modelo " | ||
| + | |||
| + | 7. Calcule os VIFs das variáveis do modelo " | ||
| + | |||
| + | 8. Repita os procedimentos anteriores até não haver nenhuma variável com VIF maior que 4. | ||
| + | |||
| + | 9. E possível que algumas das variáveis remanescentes, | ||
| + | |||
| + | 10. Realize o procedimento de seleção do modelo mínimo plausível pelo método de simplificação para o mínimo adequado, conforme explicado no item [[cursos: | ||
| + | |||
| + | 11. Analise os resultados do modelo final. | ||
| + | \\ | ||
| + | \\ | ||
| + | \\ | ||
| + | |||
| + | |||
| + | |||
| + | ===== Modelos Lineares Múltiplos: preditoras contínuas e categóricas ===== | ||
| + | |||
| + | {{: | ||
| + | |||
| + | \\ | ||
| + | \\ | ||
| + | \\ | ||
| + | \\ | ||
| + | Nesse último tópico do bloco vamos resgatar os principais conceitos que emergiram com a generalização do modelo linear, agora com múltiplas preditoras, a partir de um exemplo que tem duas variáveis preditoras contínuas e duas categórica. Acreditamos que esse exemplo incorpora as complexidades tratadas e ajuda a agrupar os tópicos que devem ficar atentos nos modelos com múltiplas preditoras. | ||
| + | \\ | ||
| + | \\ | ||
| + | \\ | ||
| + | \\ | ||
| + | \\ | ||
| + | \\ | ||
| + | \\ | ||
| + | |||
| + | <WRAP center round box 60%> | ||
| + | |||
| + | ==== Desafios dos modelos com múltiplas preditoras ==== | ||
| + | |||
| + | |||
| + | Ao final desta seção é desejável que tenha compreendido nos modelos lineares múltiplos: | ||
| + | |||
| + | * compreender a partição da variância do modelo; | ||
| + | * interpretar a '' | ||
| + | * entender o procedimento da '' | ||
| + | * saber interpretar os gráficos diagnósticos do modelo; | ||
| + | * avaliar a colinearidade entre variáveis no modelo; | ||
| + | * interpretar os coeficientes estimados; | ||
| + | * entender quais níveis estão representados no intercepto do modelo; | ||
| + | * compreender os termos de interação; | ||
| + | * compor o predito pelo modelo a partir dos coeficientes; | ||
| + | * interpretar biologicamente o resultado do modelo. | ||
| + | |||
| + | |||
| + | </ | ||
| + | \\ | ||
| + | \\ | ||
| + | |||
| + | ==== VIF e as interações ==== | ||
| + | |||
| + | No //Rcmdr// o '' | ||
| + | Uma outra forma de contornar esse problema é fazer uma transformação simples nas variáveis contínuas, centralizando a média em '' | ||
| + | |||
| + | Com essa transformação o valor '' | ||
| + | A **centralização** das variáveis contínuas é uma transformação corriqueira pois não dificulta a interpretação e ao contrário, evita muitos problemas analíticos e de interpretação. Entre as vantagens da centralização está a possibilidade de interpretar o '' | ||
| + | |||
| + | \\ | ||
| + | \\ | ||
| + | \\ | ||
| + | |||
| + | ==== Peso de bebês ao nascer ==== | ||
| + | |||
| + | {{: | ||
| + | O objetivo dessa pesquisa foi saber quais fatores afetam o tamanho de bebês ao nascer, de modo que fosse possível orientar campanhas de conscientização para evitar o nascimento de bebês com baixo peso, uma vez que isso pode implicar em maiores custos e muitos riscos ao bebê devido à permanência no hospital. Três variáveis preditoras (explicadas abaixo) foram consideradas relevantes para essa pesquisa, mas também havia um interesse genuíno em saber se alguma das variáveis poderia interferir no efeito das outras. Como a variável resposta, peso do bebê ao nascer, foi medida em '' | ||
| + | |||
| + | |||
| + | |||
| + | <WRAP center round box 80%> | ||
| + | |||
| + | * Abra o arquivo {{ : | ||
| + | * Garanta que os dados foram lidos corretamente> | ||
| + | * Abra a janela para criar uma nova variável no menu '' | ||
| + | * Na caixa '' | ||
| + | * Na caixa '' | ||
| + | * Ajuste um modelo contendo __apenas as variáveis indicadas abaixo__ e todas as interações entre elas: | ||
| + | * variável resposta: | ||
| + | * preditoras: | ||
| + | * '' | ||
| + | * '' | ||
| + | * '' | ||
| + | |||
| + | * Selecione o modelo mínimo plausível pelo método de simplificação para mínimo adequado (ver roteiro I de MLM) | ||
| + | |||
| + | * Calcule o VIF do modelo selecionado pelo menu '' | ||
| + | * Guarde o resultado dos VIF destes modelos; | ||
| + | * Crie uma nova variável pelo menu : '' | ||
| + | * Na janela que se abre coloque em '' | ||
| + | <WRAP center round box 60%> | ||
| + | {{: | ||
| + | </ | ||
| + | * Faça o mesmo para uma nova variável com o nome '' | ||
| + | * Construa o modelo selecionado utilizando estas novas variáveis contínuas centralizadas em substituição às originais; | ||
| + | * Refaça o calculos dos VIFs para esse novo modelo com as variáveis selecionadas. Guarde o resultado. | ||
| + | * Para o modelo final selecionado, | ||
| + | * avalie os gráficos diagnósticos; | ||
| + | * faça a avaliação da colinearidade entre os termos do modelo; | ||
| + | * identifique qual(is) nível(is) está(ão) representado(s) no intercepto; | ||
| + | * interprete cada um dos parâmetros do modelo, incluindo interações, | ||
| + | * A partir dos resultados do modelo proponha uma campanha para evitar que bebês nasçam com baixo peso. | ||
| + | |||
| + | |||
| + | </ | ||
| + | \\ | ||
| + | |||
| + | <WRAP center round tip 60%> | ||
| + | Retorne à [[cursos: | ||
| + | </ | ||
| + | |||
| + | |||
| + | |||
| + | |||
| + | ===== Exercício===== | ||
| + | |||
| + | <WRAP center round help 90%> | ||
| + | |||
| + | Responda o [[https:// | ||
| + | |||
| + | |||
| + | </ | ||
| + | |||
| + | |||
| + | |||
| + | /* | ||
| + | - subir um arquivo com os resumos de alguns modelos, incluindo o modelo final selecionado e os gráficos diagnósticos referentes aos dados babies.csv, interpretar o modelo final e responder as perguntas propostas. | ||
| + | |||
| + | - subir um arquivo com os resultados referentes às análises de colinearidade (por meio dos VIFs) para os dados birds_clim.csv e responder as perguntas propostas | ||
| + | |||
| + | - subir um arquivo com a seleção de modelos dos dados de birds.csv, a partir do modelo completo com as variáveis que permaneceram após a remoção daquelas com altos VIFs. Porém, para esse exercício, caso tenham permanecido três ou mais variáveis, faça o modelo completo contendo as variáveis que permaneceram, | ||
| + | |||
| + | - interpretar o modelo final selecionado. | ||
| + | |||
| + | |||
| + | |||
| + | |||
| + | ATIVIDADES ANTIGAS QUE FORAM EXCLUÍDAS OU MODIFICADAS EM 2020: | ||
| + | |||
| + | |||
| + | <WRAP center round box 80%> | ||
| + | * abra o arquivo {{ : | ||
| + | * faça um modelo plausível com as variáveis: | ||
| + | * resposta **bwt** : peso do bebê ao nascer | ||
| + | * preditoras: | ||
| + | * gestation: tempo de gestação (dias) | ||
| + | * age: idade | ||
| + | * weight: peso | ||
| + | * smoke: 0 não fumante; 1 fumante | ||
| + | * interações: | ||
| + | * selecione o modelo mínimo plausível pelo método de simplificação para mínimo adequado | ||
| + | * interprete o resultado | ||
| + | </ | ||
| + | |||
| + | |||
| + | <WRAP center round box 80%> | ||
| + | - abra o arquivo {{ : | ||
| + | - monte o modelo para peso com relação às variáveis preditoras: altura, sexo e suas interações. | ||
| + | - a partir | ||
| + | - apresente o resultado em um gráfico | ||
| + | |||
| + | </ | ||
| + | |||
| + | |||
| + | |||
| + | ===== Exercício Extra ===== | ||
| + | |||
| + | Um artigo recente (Fisher, R. & Ai C. 2018)((note que temos dois homônimos aqui, o mais famoso estatístico e um critério de seleção de modelos juntos, como autores!! Os outros nomes foram omitidos propositadamente.)) sobre métodos de regressões múltiplas, apresenta dados sobre peixes de recifes de corais. Entre as questões apresentadas pelos autores originais do trabalho estava se a biomassa de diferentes guildas de peixes em zonas protegidas ou não de recifes. Aqui vamos usar apenas a guilda de peixes que se alimentam de plânctons e apenas parte das preditoras. O método desenvolvido no artigo é uma forma de automatizar a seleção de preditoras em modelos com muitas variáveis potenciais de influenciar a resposta. | ||
| + | |||
| + | * faça uma análise exploratória das variáveis do dados {{ : | ||
| + | * monte o modelo mínimo adequado, partindo de todas as variáveis preditoras e suas interações; | ||
| + | * verifique se não há nenhuma variável com relação não linear com a biomassa, e se houver use mais uma variável representada pelo quadrado dessa variável; | ||
| + | * ao final faça o diagnóstico do modelo e veja se o resíduo cumprem com as premissas do modelo linear; | ||
| + | * caso diagnostique problema no modelo, transforme a variável resposta usando o logaritmo natural; | ||
| + | * refaça a seleção e o diagnóstico com a resposta na escala log; | ||
| + | * interprete o resultado. | ||
| + | |||
| + | |||
| + | {{ : | ||
| + | |||
| + | |||
| + | |||
| + | === Gerando dados com colinearidade === | ||
| + | |||
| + | Gerar dados com colinearidade. | ||
| + | |||
| + | */ | ||