\documentclass[a4paper, oneside, 10pt]{article} \usepackage[english]{babel} \usepackage[unicode]{hyperref} \usepackage[utf8x]{inputenc} \usepackage{fixltx2e} \usepackage{graphicx} \graphicspath{{media/}} \date{\today} \title{} \author{} \begin{document} \section{\texorpdfstring{Modelos Lineares Múltiplos III}{Modelos Lineares Multiplos III}} \label{sec:modelos_lineares_multiplos_iii} \subsection{\texorpdfstring{Interação entre preditoras e Colinearidade}{Interaao entre preditoras e Colinearidade}} \label{sec:interaao_entre_preditoras_e_colinearidade} Neste terceiro e último roteiro sobre Modelos Lineares Múltiplos vamos trabalhar com conjuntos de dados com \textbf{variáveis preditoras contínuas}. Inicialmente, iremos avaliar uma importante premissa dos modelos associados a esse tipo de dado, aprendendo a identificar colinearidade entre variáveis, entendendo os efeitos sobre a seleção de modelos e interpretando os coeficientes do modelo selecionado. Depois, vamos utilizar um conjunto de dados mais complexo com \textbf{variáveis contínuas e categóricas} para reforçar o procedimento de seleção de modelos e posteriormente obter e interpretar, por meio dos resumos dos modelos, os coeficientes dos parâmetros, incluindo as interações. Nessa segunda parte vamos exercitar todos os conceitos importantes de Modelos Lineares Múltiplos e fechar esse módulo da disciplina. \\ \subsection{\texorpdfstring{Colinearidade entre variáveis}{Colinearidade entre variaveis}} \label{sec:colinearidade_entre_variaveis} \raggedleft\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/Figura matriz correlacao} Uma importante premissa de modelos lineares múltiplos é que as variáveis preditoras sejam independentes entre si. Entretanto, em estudos observacionais ou exploratórios é relativamente comum que as variáveis preditoras não sejam independentes. Quando duas variáveis preditoras estão correlacionadas e estão explicando a mesma porção da variância da variável resposta estamos diante de um problema de colinearidade. Nos casos mais extremos, a colinearidade pode afetar a significância de algumas variáveis e até mesmo o sinal do efeito. Existem várias formas de lidar com a colinearidade, mas vamos focar nossa atividade em identificar e remover variáveis que estejam inflando as estimativas de variação. Para isso, vamos usar um índice chamado de Variance Inflation Factor (VIF), que é calculado a partir dessa equação: $$ VIF_{i} = \frac{1}{1 - R_{i}^{2}} $$ Esse R\textsuperscript{2} é obtido ajustando um modelo linear múltiplo para analisar a relação entre cada variável preditora, por exemplo \emph{i} = X\textsubscript{1}, e todas as outras preditoras no modelo de interesse (X\textsubscript{2}, X\textsubscript{3},..., X\textsubscript{n}). Fazendo isso para todas as preditoras teremos um \texttt{VIF} para cada uma delas. Um alto R\textsuperscript{2} significa que grande parte da variação na preditora em questão é compartilhada pelas outras variáveis. Veja no exemplo abaixo um passo-a-passo para calcular o \texttt{VIF}. Quanto maior for o valor do \texttt{VIF}, mais os valores de erro padrão dos parâmetros do modelo serão inflados e mais dificilmente um efeito será detectado. Além da imprecisão nas estimativas dos parâmetros colineares, um outro problema que pode emergir é o modelo mínimo adequado ser diferente, dependendo da ordem da simplificação do modelo cheio. Um valor frequentemente usado para definir um limite aceitável de \texttt{VIF} é 4,0, acima desse valor as estimativas do modelo podem ficar comprometidas. Nessa abordagem, após identificar quais são as variáveis com maiores valores de VIF, elas serão removidas sequencialmente. A cada variável retirada verifica-se novamente se os valores de VIF diminuíram ou se ainda precisam ser retiradas outras variáveis colineares. É importante entender que a escolha de qual variável retirar vai depender também do sentido biológico/ecológico de cada variável. Em alguns casos, pode valer a pena manter uma variável cujo VIF é levemente mais alto, pois o mecanismo de explicação pode ser mais explícito para essa variável. Vamos ver como isso funciona na prática abaixo. \\ \subsubsection{\texorpdfstring{Biomassa de manguezais e variáveis ambientais}{Biomassa de manguezais e variaveis ambientais}} \label{sec:biomassa_de_manguezais_e_variaveis_ambientais} \includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/MaguezalMarajo2} \\ O objetivo dessa pesquisa foi avaliar quais variáveis ambientais predizem melhor a biomassa acima do solo (Aboveground Biomass-AGB) de manguezais em diferentes locais do mundo\footnote{dados fictícios, mas baseados em valores reais}. Foram utilizadas 3 variáveis ambientais que são facilmente obtidas em bases de dados mundiais. \\ 1. Baixe o conjunto de dados \href{media/cursos/planeco/roteiro/mangrove.csv}{mangrove.csv}, importe para o Rcmdr, usando \underline{vírgula} como separador de campo, e visualize os dados para entender o arquivo. 2. Entenda as variáveis do arquivo: \begin{itemize} \item variável resposta: \begin{itemize} \item \textbf{AGB\_carbon} = Estoque de Carbono estimado a partir da biomassa acima do solo (AGB) de árvores de manguezais (MgC/ha) no hemisfério sul \end{itemize} \item variáveis preditoras: \begin{itemize} \item \textbf{lat} = latitude (em graus)\footnote{Os dados são predominantemente do hemisfério sul e por isso seriam esperados valores negativos de latitude, porém foram transformados em valores positivos para facilitar a interpretação. Alguns valores do hemisfério norte aparecem como negativos na planilha} \item \textbf{temp} = Temperatura média anual (em graus Celsius) \item \textbf{ppt} = Precipitação anual (mm) \end{itemize} \end{itemize} 3. Inspecione a correlação entre todas as variáveis preditoras contínuas: Para fazer isso no \emph{Rcmdr}, você tem duas opções: \begin{itemize} \item Uma opção é avaliar numericamente as correlações. Para isso, entre em \textbf{Statistics$\rightarrow$ Summary $\rightarrow$ Correlation Matrix}, selecione todas as variáveis preditoras e clique em OK. Você verá os valores de correlação de todos os pares de variáveis. Observando os valores mais altos de correlação, você já pode ter uma ideia se existem variáveis com potencial para apresentar colinearidade. \end{itemize} \begin{itemize} \item Outra opção é avaliar graficamente as correlações entre as variáveis. Para isso, entre em \textbf{Graphics $\rightarrow$ Dispersion Matrix} e selecione todas as variáveis preditoras contínuas. Na aba \textbf{Options} selecione ,,Minimum Square Line" e clique em OK. Na figura que foi gerada, você poderá avaliar quais pares de variáveis parecem ter uma maior correlação entre elas. \end{itemize} Esse procedimento de analisar a correlação entre todas as nossas variáveis preditoras contínuas deveria ser sempre realizado antes de fazermos nossas análises. 4. Ajuste um modelo, relacionando AGB-carbon com todas as variáveis preditoras, mas ainda sem incluir as interações. Nomeie esse modelo como ,,carbon1". No \emph{summary} do modelo, repare nos efeitos e na significância de cada um dos parâmetros. 5. Calcule os VIFs\footnote{A função utilizada no \emph{Rcmdr} para calcular o \texttt{VIF} utiliza uma variante chamada \texttt{GVIF}, uma generalização que pode ser aplicada também para variáveis categóricas com a mesma interpretação colocada acima o \texttt{GVIF} foi desenvolvida pelo John Fox, mesmo autor do Rcmdr. Veja o artigo no link \url{https://www.tandfonline.com/doi/abs/10.1080/01621459.1992.10475190}} para as variáveis incluídas no modelo Para isso, entre em \textbf{Models $\rightarrow$ Numerical diagnostics $\rightarrow$ Variance-inflation factors}. O primeiro resultado apresentado é uma linha com os valores de VIF para cada parâmetro do modelo. O segundo resultado apresentado é uma matriz de correlação das \underline{estimativas dos parâmetros}. Note que os valores são diferentes das correlações feitas diretamente para as variáveis (item 3, acima). Importante: Como o valor de VIF de cada parâmetro depende de quais outros parâmetros estão sendo incluídos no modelo, só é possível calcular os VIFs depois de ter ajustado um modelo. Ao usar o \emph{Rcmdr}, fique sempre atento(a) se o modelo ativo é realmente o modelo para o qual você quer calcular os VIFs. \textbf{PAUSA OPCIONAL} caso você queira aprender a calcular manualmente os valores de VIF: Em primeiro lugar, reveja a equação de cálculo de VIF apresentada acima. Agora, vamos calcular manualmente o valor de VIF para a variável preditora \textbf{lat} e comparar com o valor obtido acima no \emph{Rcmdr}. Para isso, precisamos calcular o R\textsuperscript{2} da relação entre essa variável preditora e todas as outras preditoras que estavam no modelo completo, sem as interações (carbon1). Para isso, vamos criar um novo modelo no qual a variável para a qual estamos interessados em calcular o VIF (\textbf{lat}) passará agora a ser a \underline{variável resposta} desse novo modelo que criaremos. Entre em \textbf{Statistics $\rightarrow$ Fit models $\rightarrow$ Linear model}. Coloque \textbf{lat} como \underline{variável resposta} na caixa da esquerda da equação e coloque as outras 2 variáveis preditoras (\textbf{temp} + \textbf{ppt}) na caixa da direita da equação. Defina o nome desse modelo como ,,viflat". No \emph{summary} do modelo será apresentado o valor de R\textsuperscript{2} Múltiplo (\emph{Multiple R-square}). Utilize esse valor na equação de cálculo de VIF e veja se o resultado é igual ao valor de VIF calculado pelo R Commander para a variável \textbf{lat} a partir do modelo ,,carbon1" feito acima. Deveria ser. Se não foi, peça ajuda a alguém da equipe. Repita o mesmo procedimento para outra variável de sua escolha. Você pode fazer isso para todas as variáveis do modelo, se quiser. Continuando nossa análise sobre o estoque de Carbono em manguezais: 6. Após analisar os valores dos VIFs do modelo ,,carbon1", se houver alguma variável com valor maior que 4, remova a variável com o maior VIF e ajuste um novo modelo. Coloque ,,carbon2" como nome desse modelo. Olhe para o \emph{summary} desse modelo e para as variáveis que permaneceram nele. Cheque os valores dos coeficientes e a significância de cada variável em relação ao modelo ,,carbon1". \textbf{Houve alguma alteração? Alguma variável deixou de ser significativa? Alguma variável passou a ser significativa? O sinal do efeito mudou?} 7. Calcule os VIFs das variáveis do modelo ,,carbon2" usando o caminho \textbf{Models $\rightarrow$ Numerical diagnostics $\rightarrow$ Variance-inflation factors} e veja se ainda tem alguma variável com VIF maior que 4. 8. Repita os procedimentos anteriores até não haver nenhuma variável com VIF maior que 4. 9. E possível que algumas das variáveis remanescentes, mesmo que não sejam colineares entre si, não sejam relevantes para definir o estoque de carbono em manguezais. Então, para iniciar o procedimento de seleção de modelos, crie um modelo completo que inclua as variáveis remanescentes \textbf{e suas interações} (nomeie como ,,carbon\_int"). Analise o \emph{summary}do modelo. 10. Realize o procedimento de seleção do modelo mínimo plausível pelo método de simplificação para o mínimo adequado, conforme explicado no item \href{http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:roteiro:09-lm02\%23simplificando_modelos}{Simplificando modelos} do roteiro I de Modelos Lineares Múltiplos]] 11. Analise os resultados do modelo final. \\ \\ \\ \subsection{\texorpdfstring{Modelos Lineares Múltiplos: preditoras contínuas e categóricas}{Modelos Lineares Multiplos preditoras continuas e categoricas}} \label{sec:modelos_lineares_multiplos_preditoras_continuas_e_categoricas} \raggedleft\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/plotBabies01} \\ \\ \\ \\ Nesse último tópico do bloco vamos resgatar os principais conceitos que emergiram com a generalização do modelo linear, agora com múltiplas preditoras, a partir de um exemplo que tem duas variáveis preditoras contínuas e duas categórica. Acreditamos que esse exemplo incorpora as complexidades tratadas e ajuda a agrupar os tópicos que devem ficar atentos nos modelos com múltiplas preditoras. \\ \\ \\ \\ \\ \\ \\ \subsubsection{\texorpdfstring{Desafios dos modelos com múltiplas preditoras}{Desafios dos modelos com multiplas preditoras}} \label{sec:desafios_dos_modelos_com_multiplas_preditoras} Ao final desta seção é desejável que tenha compreendido nos modelos lineares múltiplos: \begin{itemize} \item compreender a partição da variância do modelo; \item interpretar a \texttt{tabela de anova} na comparação de dois modelos; \item entender o procedimento da \texttt{anova} para simplificação do modelo; \item saber interpretar os gráficos diagnósticos do modelo; \item avaliar a colinearidade entre variáveis no modelo; \item interpretar os coeficientes estimados; \item entender quais níveis estão representados no intercepto do modelo; \item compreender os termos de interação; \item compor o predito pelo modelo a partir dos coeficientes; \item interpretar biologicamente o resultado do modelo. \end{itemize} \\ \\ \subsubsection{\texorpdfstring{VIF e as interações}{VIF e as interaoes}} \label{sec:vif_e_as_interaoes} No \emph{Rcmdr} o \texttt{VIF} é aplicado ao modelo ativo pelo menu \texttt{Models \textgreater Numerical diagnostics \textgreater Variance-inflation factors}), calculando o valor para todos os termos do modelo, inclusive as interações. Como interações e as variáveis isoladas compartilham parte da variação explicada, a correlação entre eles é esperada. Ou seja, não é possível fazer a avaliação do VIF das variáveis em modelos com interação diretamente. Uma soluçao é fazer modelos sem as interações como fizemos anteriormente. Uma outra forma de contornar esse problema é fazer uma transformação simples nas variáveis contínuas, centralizando a média em \texttt{zero}, subtraindo o valor observado da média( $x_i - \bar{x}$ ). Com essa transformação o valor \texttt{0} passa a representar a média e os valores positivos o aumento em relação a média e negativos a diminuição, na mesma unidade de escala da variável original. A \textbf{centralização} das variáveis contínuas é uma transformação corriqueira pois não dificulta a interpretação e ao contrário, evita muitos problemas analíticos e de interpretação. Entre as vantagens da centralização está a possibilidade de interpretar o \texttt{VIF} diretamente no modelo selecionado e incorporar uma interpretação biológica para o valor do intercepto, onde muitas vezes não existia. \\ \\ \\ \subsubsection{\texorpdfstring{Peso de bebês ao nascer}{Peso de bebes ao nascer}} \label{sec:peso_de_bebes_ao_nascer} \raggedleft\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/cegonha final_133910457_dreamstime} O objetivo dessa pesquisa foi saber quais fatores afetam o tamanho de bebês ao nascer, de modo que fosse possível orientar campanhas de conscientização para evitar o nascimento de bebês com baixo peso, uma vez que isso pode implicar em maiores custos e muitos riscos ao bebê devido à permanência no hospital. Três variáveis preditoras (explicadas abaixo) foram consideradas relevantes para essa pesquisa, mas também havia um interesse genuíno em saber se alguma das variáveis poderia interferir no efeito das outras. Como a variável resposta, peso do bebê ao nascer, foi medida em \texttt{onças} vamos primeiro transformar em uma escala de medida que temos mais facilidade para interpretar, multiplando essa variável por \texttt{0.02835} para transformar em \texttt{kg}. \begin{itemize} \item Abra o arquivo \href{media/planeco/roteiro/babies.csv}{babies.csv} no Rcmdr, usando \underline{tabulação(Tabs)} como separador de campo \item Garanta que os dados foram lidos corretamente\textgreater \item Abra a janela para criar uma nova variável no menu \texttt{Data \textgreater Manage variables in active data set \textgreater Compute a new variable}; \item Na caixa \texttt{New variable name} nomei a nova variável como \texttt{pesoKg}; \item Na caixa \texttt{Expression to compute} coloque a expressão: \texttt{bwt * 0.02835}; \item Ajuste um modelo contendo \underline{apenas as variáveis indicadas abaixo} e todas as interações entre elas: \item variável resposta: \texttt{pesoKg} = peso do bebê (medido em \texttt{kg}) \item preditoras: \begin{itemize} \item \texttt{gestation} = tempo de gestação (dias) \item \texttt{age} = idade da mãe \item \texttt{smoke}: \texttt{FALSE} mãe não fumante; \texttt{TRUE} mãe fumante \end{itemize} \end{itemize} \begin{itemize} \item Selecione o modelo mínimo plausível pelo método de simplificação para mínimo adequado (ver roteiro I de MLM) \end{itemize} \begin{itemize} \item Calcule o VIF do modelo selecionado pelo menu \texttt{Models \textgreater Numerical diagnostics \textgreater Variantion Inflation Factor} \item Guarde o resultado dos VIF destes modelos; \item Crie uma nova variável pelo menu : \texttt{Data \textgreater Manage variable in active data set \textgreater Computer new variable}; \item Na janela que se abre coloque em \texttt{New variabel name} o nome \texttt{ageCenter} e em \texttt{Expression to compute} inclua a expressão \texttt{age - mean(age)}; \end{itemize} \includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/centerAgeBabies} \begin{itemize} \item Faça o mesmo para uma nova variável com o nome \texttt{gestationCenter} usando a expressão \texttt{ gestation - mean(gestatation)}; \item Construa o modelo selecionado utilizando estas novas variáveis contínuas centralizadas em substituição às originais; \item Refaça o calculos dos VIFs para esse novo modelo com as variáveis selecionadas. Guarde o resultado. \item Para o modelo final selecionado, com as variáveis preditoras contínuas centralizadas: \begin{itemize} \item avalie os gráficos diagnósticos; \item faça a avaliação da colinearidade entre os termos do modelo; \item identifique qual(is) nível(is) está(ão) representado(s) no intercepto; \item interprete cada um dos parâmetros do modelo, incluindo interações, se houver; \end{itemize} \item A partir dos resultados do modelo proponha uma campanha para evitar que bebês nasçam com baixo peso. \end{itemize} \\ Retorne à \href{http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:roteiro:09-lm02b\%23desafios_dos_modelos_com_multiplas_preditoras}{lista de desafios dos modelos com múltiplas preditoras} do início desta seção e avalie se todos os pontos foram compreendidos. \subsection{\texorpdfstring{Exercício}{Exercicio}} \label{sec:exercicio} Responda o \href{https://forms.gle/qZg13LsMEG2xHRAe6}{o formulário MLM III} incluindo arquivos de resultados e figuras quando solicitado. \end{document}