\documentclass[a4paper, oneside, 10pt]{article} \usepackage[english]{babel} \usepackage[unicode]{hyperref} \usepackage[utf8x]{inputenc} \usepackage{listings} \usepackage{graphicx} \graphicspath{{media/}} \date{\today} \title{} \author{} \begin{document} \section{\texorpdfstring{Modelos Lineares Mistos (LMM)}{Modelos Lineares Mistos LMM}} \label{sec:modelos_lineares_mistos_lmm} \underline{\textbf{Objetivo desse roteiro}} Ao final que você seja capaz de: \begin{itemize} \item 1. Entender o que são efeitos fixos e aleatórios. \item 2. Compreender a estrutura básica de um modelo linear misto. \item 3. Fazer uma análise de modelo misto no \textbf{Rcmdr} usando o pacote \texttt{lme4} (Bates et al. 2014) \item 4. Entender o \emph{output} da função \texttt{lmer}. \item 5. Decidir quais efeitos aleatórios e fixos manter no seu modelo final. \item 6. Interpretar o resultado de um modelo misto selecionado. \end{itemize} \subsection{\texorpdfstring{Modelos Lineares Mistos (LMM)}{Modelos Lineares Mistos LMM}} \label{sec:modelos_lineares_mistos_lmm2} Os modelos Lineares Mistos são uma generalização de modelos lineares que afrouxam uma premissa básica de todos os modelos que vimos até agora: a independência entre as observações. Essa falta de independência emerge por vários motivos em experimentos e muitas vezes são desejáveis pois controlam fatores de confusão. Entre as principais fontes de onde emergem essas dependências estão: \begin{itemize} \item espacial \item temporal \item biológicas \end{itemize} No primeiro caso, é esperado que objetos que estão mais próximos sejam mais parecidos entre si do que objetos mais longe, pois compartilham muitas condições associadas ao mesmo espaço. Dependências temporais emergem principalmente quando medimos um mesmo objetos de estudo em diferentes momentos. As biológicas estão relacionadas ao compartilhamento de caracteres ou funcionalidades entre indivíduos mais relacionados geneticamente, por exemplo. Essa dependência portanto, cria agrupamentos de observações que compartilham similaridades que não são compartilhadas com observações de outros grupos. Em geral, não estamos interessados nas diferenças que existem entre esses grupos, mas precisamos contemplar a falta de independência de alguma forma. Os \textbf{Modelos Lineares Mistos} justamente lidam com essas falta de independência desse agrupamentos de observações. Para isso, os \textbf{LMM} incorporam uma estrutura aletoria adicional nos modelos lineares para acomodar esses agrupamentos definidos agora como \textbf{variáveis categóricas preditoras aleatórias}. Diferente das \textbf{variáveis categóricas preditoras fixas} onde o interesse é interpretar as diferenças entre os níveis, nas aleatórias queremos apenas estimar a variabilidade associada aos agrupamentos. \subsubsection{\texorpdfstring{Variáveis categóricas fixas ou aleatórias}{Variaveis categoricas fixas ou aleatorias}} \label{sec:variaveis_categoricas_fixas_ou_aleatorias} \includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/randfixEff} Uma forma de diferenciar as variáveis categóricas fixas e aleatórias é imaginar a realização de múltiplos experimentos, que está por trás da teoria da estatística frequentista. Em um experimento usual com a variável categórica fixa estamos interessados na estimativa das médias para cada nível da variável e buscamos saber se esses níveis são diferentes em média, como exemplificado na primeira realização do experimento (\textbf{1}) no painel da esquerda (\textbf{a}) da figura acima. Ao refazer o mesmo experimento, iriamos recoletar os mesmos níveis (experimentos \textbf{2} e \textbf{3} ) e estimar valores de médias muito próximos, como exemplificado no painel \textbf{a} da figura acima no seu canto direito. Por outro lado, quando temos uma variável categórica aleatória não estamos interessados em nenhum nível específico e outro experimento iria coletar outros níveis aleatórios \footnote{por isso o nome!} dentro todos os níveis possíveis dessa variável categórica, como mostra o painel \textbf{b} da figura acima. Neste caso, estamos interessados, não na diferença das médias entre os níveis e sim, na variabilidade associada à população de níveis dessa variável categórica, como mostrado no canto direito do painel \textbf{b}. O vídeo abaixo apresenta uma breve introdução sobre os modelos lineares mistos . \subsubsection{\texorpdfstring{Crescimento de Árvores}{Crescimento de Arvores}} \label{sec:crescimento_de_arvores} Vamos contextualizar os \textbf{LMM} a partir de um exemplo e suas diferença com os modelos \textbf{LM}. O interesse do estudo do exemplo a seguir foi entender se a \textbf{deciduidade} (perda de folha síncrona) de árvores está relacionada ao crescimento do indivíduo. Algumas árvores perdem as folhas de forma sincronizada (decíduas), enquanto outras trocam de folhas ao longo do tempo sem haver essa sincronicidade (perenes). A pergunta: árvores decíduas crescem menos que árvores não decíduas? Tem seus desafios e fontes de confusão. Um complicador é que o crescimento está diretamente relacionado com o tamanho da árvore. Por isso, os pesquisadores decidiram incluir o tamanho da árvore como uma preditora fixa e com isso condicionaram o crescimento à variável tamanho. Além disso, a perda de folha síncrona é característica da espécie e eles precisaram incluir essa variável no desenho experimental. Ao final, os pesquisadores selecionaram \texttt{5} espécies decíduas e outras \texttt{5} perenes e, para cada espécie anotaram o crescimento de \texttt{10} indivíduos, totalizando 100 indivíduos. \textbf{\underline{Deciduidade em Árvores}} Vamos iniciar nosso exemplo com uma análise de modelo linear simples, sempre testando a hipótese que o crescimento de árvores decíduas e perenes é diferente. Cresce árvores: modelo linear \begin{enumerate} \item baixe os dados do experimento \href{media/cursos/planeco/roteiro/alturaCresc.txt}{cresce arvores\}\}preservefilenames::alturaCresc.txt}; \item faça o modelo \texttt{cresc \textasciitilde{} alt + dec + alt:dec }; \item simplifique até o mínimo adequado; \item interprete o modelo selecionado. \end{enumerate} \subsubsection{\texorpdfstring{Procedimento em duas etapas: cresce árvores}{Procedimento em duas etapas cresce arvores}} \label{sec:procedimento_em_duas_etapas_cresce_arvores} O problema com o modelo que fizemos acima é que desrespeitamos uma pressuposto muito importante para os modelos lineares: a independência entre as observações . Os indivíduos de uma mesma espécie podem compartilhar características que poderiam fazer o crescimento de todos os indivíduos desta espécies crescer mais ou menos, independente se a espécie é decídua ou não. Por essa razão precisamos tratar essa dependência entre as observações associada aos indivíduos serem da mesma espécie. Antes de termos a instrumentação dos modelos mistos ou outras técnicas para lidar com essas dependências, uma forma de tratar as dependências entre observações era a redução da informação, por exemplo a média, para cada nível de agrupamento desta dependência, no caso aqui ilustrado, para cada uma das espécies. Como temos o crescimento dependendo do tamanho do indivíduo, a média aqui não seria uma boa redução de informação pois poderíamos ter amostrado indivíduos maiores em um espécie e menores em outra, simplesmente por acaso. Para esse caso, o que podemos fazer é a redução da relação \texttt{cresc \textasciitilde{} alt} para cada espécie e em seguida testar se as inclinações das espécies decícuoas são diferentes das espécies perenes. Se as inclinações não forem diferentes, ainda resta testar se os interceptos são diferentes. Vamos fazer esse teste. \begin{enumerate} \item para cada uma das 10 espécies faça o modelo \texttt{cresc \textasciitilde{} alt}; \item guarde os coeficientes de inclinação e intercepto para cada uma das espécies junto a informação se é decídua ou perene; \item faça o modelo que testa se a inclinação é diferente entre decíduas e perenes; \item caso o a inclinação não seja significativamente diferente entre os dois grupos, faça o mesmo para a intercepto; \item interprete o resultado. \end{enumerate} \subsubsection{\texorpdfstring{LMM: cresce árvores}{LMM cresce arvores}} \label{sec:lmm_cresce_arvores} Vamos agora modelar esses dados com o modelo linear mistos. O \textbf{misto} vem da ideia de incorporar variáveis fixas e aleatórias como preditoras. Nestes modelos a estrutura aleatória preditora pode influenciar o intercepto ou a inclinação \footnote{a modelagem da inclinação pressupõem o intercepto}. A influência no intercepto significa que a estimativa de interceptos para as espécies provêm de uma distribuição normal de interceptos definidos por um intercepto médio e um dado desvio padrão. A expressão geral para um modelo com uma preditora e a variável aleatória afetando apenas o intercepto é: $$ y_{ij} = (\bar{\alpha} + \epsilon_j) + \beta x_{ij} + \epsilon_{ij} $$ $$ \epsilon_j = N(0, \sigma_{entre}) $$ $$ \epsilon_{ij} = N(0, \sigma_{intra}) $$ O $\bar{\alpha}$ é o intercepto médio e o $\sigma_{entre}$ é a estimativa do desvio padrão associado à distribuição de interceptos para a variável aleatória. Ou seja, no nosso caso, a estimativa da variabilidade de interceptos associado às espécies. O modelo em que a variável aleatória influencia a inclinação tem a seguinte expressão: $$y_{ij} = (\bar{\alpha} + \epsilon_{\alpha_j}) + (\bar{\beta} + \epsilon_{\beta_j}) x_{ij} + \epsilon_{\text{res}_{ij}}$$ Note que não ao influenciar a inclinação, por consequência o intercepto também é influenciado pela variável aleatória. Neste caso o modelo estima o intercepto médio, a inclinação média e os seguintes desvios padrão: $$ \epsilon_{\alpha} = N(0, \sigma_{\alpha}) $$ $$ \epsilon_{\beta} = N(0, \sigma_{\beta}) $$ $$ \epsilon_{\text{res}} = N(0, \sigma_{\text{res}}) $$ Para criar o nosso modelo cheio no R com a variável aleatória influenciando a inclinação, a notação é:\lstset{frame=single} \begin{lstlisting} lmer(cresc ~ alt + dec + alt:dec + (alt|sp)) \end{lstlisting} A expressão \texttt{(alt|sp)} está indicando que a variável aleatória \texttt{sp} irá modelar a inclinação da variável contínua \texttt{alt}. O modelo em que a variável \texttt{sp} influência apenas o intercepto é construído com a seguinte expressão: \lstset{frame=single} \begin{lstlisting} lmer(cresc ~ alt + dec + alt:dec + (1|sp)) \end{lstlisting} O código \texttt{(1|sp)} indica que a variável \texttt{sp} vai influenciar apenas o intercepto. \subsubsection{\texorpdfstring{Selecionando a estrutura aleatória do modelo}{Selecionando a estrutura aleatoria do modelo}} \label{sec:selecionando_a_estrutura_aleatoria_do_modelo} Assim como na estrutura fixa do modelo podemos reduzir a estrutura aleatória ao mínimo adequado para interpretar. Para isso, seguimos o procedimento descrito em Zuur et al. 2009 \footnote{veja referência ao final do roteiro}. \begin{enumerate} \item defina estrutura cheia das variáveis fixas; \item inicie com a forma mais complexa da estrutura aleatória; \item compare modelos aninhados por simplificando a estrutura aleatória; \item utilize a função \texttt{anova} com o argumento \texttt{refit = FALSE} quando comparar modelos com diferentes estruturas aleatórias; \item finalize a simplificação da estrutura aleatória \footnote{a equipe da disciplina acredita que ao menos a influência no intercepto deve ser mantida para contemplar a dependência do desenho experimental}, \item faça a simplificação da estrutura fixa do modelo como em um modelo \texttt{lm}, mantendo a estrutura aleatória da forma que foi selecionada nos passos acima. \end{enumerate} \subsubsection{\texorpdfstring{Atividade}{Atividade}} \label{sec:atividade} \begin{itemize} \item baixe o arquivo de \href{media/cursos/planeco/roteiro/crescArv.txt}{dados de crescimento de árvores\}\}preservefilenames::crescArv.txt} \footnote{apresenta campos separados por tabulação}; \item leia o arquivo de dados no Rcmdr; \item construa o modelo cheio; \item faça a simplificação do modelo seguindo os passos indicados acima; \item interprete o modelo selecionado. \end{itemize} \subsubsection{\texorpdfstring{Riqueza em praias}{Riqueza em praias}} \label{sec:riqueza_em_praias} \raggedleft\includegraphics[keepaspectratio=true,width=0.8\textwidth]{5-Figure1-1} Esse exemplo no roteiro é baseado em material desenvolvido por alunos de nosso programa de PG \footnote{A versão original está disponível neste \href{https://melinaleiteblog.netlify.com/2017/09/19/introducao-aos-modelos-mistos/}{site}}\href{https://melinaleite.weebly.com/}{Melina Leite}, \href{https://mariliagaiarsa.weebly.com/}{Marília Gaiarsa} e \href{http://www.guimaraes.bio.br/people.html}{Lucas Medeiros} e vem sendo modificado, ao longo dos anos, para adaptá-lo ao curso. Para exemplificar o que são modelos mistos e sua importância em ecologia, usaremos como exemplo um conjunto de dados presente no \href{http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:roteiro:11-lmm\%23referencias_e_recomendacoes}{capítulo 5 de Zuur et al. (2009)}. Esses dados são referentes a um estudo sobre a riqueza de espécies da macrofauna em 9 praias na costa da Holanda. Em cada uma das praias os autores coletaram dados em cinco localidades diferentes. Para cada localidade existe informação sobre a altura da estação de amostragem em relação à altura média da maré (\texttt{NAP}, variável contínua) e também um índice de exposição da praia (\texttt{Exposure}, variável categórica). Vamos supor que estamos interessados em verificar se a altura em relação à altura média da maré (variável \texttt{NAP}) influencia a riqueza de espécies nessas praias, deixando de lado a variável de exposição nesse momento. Podemos, por exemplo, construir um \textbf{modelo linear simples} da seguinte forma: $$\text{riqueza} = \alpha + \beta * \text{NAP} + \varepsilon$$ sendo que $\varepsilon$ é o resíduo com distribuição normal (ou gaussiana) de média zero e um dado desvio padrão: $$ \varepsilon = N(0, \sigma) $$ Aqui estamos modelando a riqueza de cada ponto de amostragem em função da variável \texttt{NAP}. O coeficiente $\alpha$ é o intercepto do modelo, $\beta$ é a inclinação (coeficiente angular ) de \texttt{NAP}, que definem a esperança (média) do modelo. O resíduo do nosso modelo ($\varepsilon$) é a variação da riqueza que não conseguimos explicar com nossa variável preditora \texttt{NAP}. Este é o escopo dos modelos lineares que estudamos até o momento. No entanto, neste exemplo o modelo viola uma premissa fundamental de modelos lineares, a de que \textbf{as observações que geram os dados são independentes umas das outras} (Winter, 2013). Os dados obtidos em uma mesma praia não são independentes entre si (dependência espacial). É possível imaginar diversas características particulares de cada praia, como o tipo de grão de areia ou a inclinação da praia, que podem influenciar a riqueza de espécies e que não estão contempladas nesse modelo. Deste modo, os valores de riqueza obtido pelas unidades amostrais de uma mesma praia tendem a ser mais parecidos entre si, independente da relação com as variáveis preditoras que estamos analisando. Veja o gráfico abaixo, em que cada cor representa uma praia, para avaliar visualmente se a relação entre riqueza e \texttt{NAP} é diferente entre praias: \textbf{\underline{Modelos Lineares para cada praia}} \includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/planeco/roteiro/lmm1} Nesta figura temos as retas do modelo linear simples entre \texttt{Riqueza} e \texttt{NAP} aplicado para cada praia . Entretanto, a pergunta do estudo não diz respeito a cada praia separadamente, o objetivo é modelar a relação para todas as praias amostradas, sem especificar o que acontece para cada praia isoladamente. Por outro lado, se considerarmos cada ponto de amostragem como se fossem independente entre si, estaremos incorrendo em um erro denominado de pseudo-replicação ou falta de independência das observações\footnote{podemos dizer também que as observações da mesma praia são correlacionadas}. Ou seja, queremos considerar essa dependência sem falar especificamente de nenhuma praia e, ao mesmo tempo, avaliar a variação associada às praias. Além disso, queremos que as praias amostradas representem uma amostra aleatória de todas as praias que poderíamos contemplar no nosso estudo. \subsubsection{\texorpdfstring{Efeito Aleatório}{Efeito Aleatorio}} \label{sec:efeito_aleatorio} Para isso, precisamos de um modelo linear que incorpore o fato de que nossos dados estão agrupados em praias. Chamamos de \textbf{efeito aleatório} uma variável que agrupa nossos dados e que, geralmente, seu efeito sobre a variável resposta não nos interessa diretamente \footnote{nesse exemplo não interessa, mas dependendo da análise, pode interessar - veja discussão em McGill 2015}. Nesse exemplo, os autores amostraram \texttt{9} praias, mas poderiam ter feito o mesmo estudo amostrando outras \texttt{9} praias em uma amostra aleatória. Nesse sentido, as \texttt{9} praias da amostra são apenas \texttt{9} possíveis praias amostradas aleatoriamente de todas as possíveis \texttt{9} que poderiam ter sido amostradas ao acaso. Por esta razão, \texttt{praias} é um variável aleatória. O efeito aleatório \texttt{praia} \underline{organiza} parte da variação nos nossos dados que o modelo não explicaria com as variáveis preditoras e que estaria presente no resíduo($\varepsilon$) do modelo linear simples. Por outro lado, as \underline{variáveis preditoras} usuais em modelos lineares são chamadas de \textbf{efeitos fixos}. No exemplo das praias, a variável de diferença do nível da maré (\texttt{NAP}) é uma variável de efeito fixo e estamos diretamente interessados em seu efeito sobre a variável resposta (\texttt{Richness}). O nome \textbf{misto} refere-se ao fato de existirem tanto efeitos fixos, quanto aleatórios nas variáveis preditoras do modelo. Esses modelos são chamados também de \textbf{\underline{hierárquicos}} ou \textbf{\underline{multinível}}. Em ecologia é comum encontrarmos delineamentos amostrais ou experimentais que geram dados com algum tipo de agrupamento (delineamento hierárquico ou aninhado). Por exemplo, quando uma amostragem é feita por parcelas ou quando um experimento é separado em diferentes blocos. Nesses casos, não podemos tratar nossos dados como independentes e uma abordagem estatística adequada é a de \textbf{modelos mistos}. Inicialmente, a forma mais simples de incorporar o efeito aleatório em nosso exemplo é definir que cada praia apresenta um intercepto diferente no modelo. Ou seja, queremos ajustar uma reta para nossa relação entre \texttt{riqueza} e \texttt{NAP}, mas permitir que cada praia tenha seu próprio intercepto, que é relacionado ao intercepto da reta \textbf{principal} (efeito fixo). Neste caso, o modelo terá a seguinte estrutura: $$\text{riqueza}_{i} = \alpha + \epsilon_{\text{praia}_i} + \beta * NAP + \epsilon_{\text{res}}$$ sendo: $$\epsilon_{\text{praia}} = N(0, \sigma_{\text{praia}})$$ $$ \epsilon_{\text{res}} = N(0, \sigma_{\text{res}})$$ A riqueza da praia \texttt{i} é explicada pelo efeito fixo $\beta*NAP$ e pelo efeito aleatório $\epsilon_{\text{praia}_i}$, que se soma ao valor do intercepto fixo do modelo, $\alpha$, para formar o intercepto da praia \texttt{i}. Veja que o índice \texttt{i} está atrelado a $\epsilon_{\text{praia}_i}$ e, portanto, o modelo permite que cada uma das praias apresente um intercepto diferente com mesmas inclinações $\beta$. O $\beta$ faz parte do efeito fixo e não possui nenhum índice \texttt{i} atrelado a ele, portanto, é o mesmo para todas as praias. Finalmente, $\epsilon_{\text{res}}$ representa o resíduo associado aos desvios dos valores observados em relação aos preditos pela reta da praia relativa à observação. Ambos, $\epsilon_{\text{praia}}$ e $\epsilon_{\text{res}}$, são variáveis aleatórias com média \texttt{zero} e desvios padrão $\sigma_{\text{praia}}$ e $\sigma_{\text{res}}$, respectivamente. \subsection{\texorpdfstring{Modelos mistos no Rcmdr}{Modelos mistos no Rcmdr}} \label{sec:modelos_mistos_no_rcmdr} Existem vários pacotes disponíveis no R para realizar análises de modelos mistos. Neste roteiro usaremos o \texttt{lme4} (Bates et al. 2014), que possui funções para analisar modelos lineares mistos, modelos lineares mistos generalizados e modelos mistos não lineares. Desde o ano de 2020, os modelos mistos passaram a ser contemplados no Rcmdr. Por isso, podemos utilizar essa interface para fazer os modelos nesse curso. Porém, lembre-se que estamos utilizando o pacote \texttt{lme4} para a construção destes modelos. Então, precisamos carregá-lo quando o \textbf{Rcmdr} é aberto. Para isso, vá em \texttt{Tools $\rightarrow$ load packages} e escolha \texttt{lme4}\footnote{Caso queira usar as funções que utilizaremos a seguir no console do \texttt{R} diretamente, você precisará instalar e carregar o mesmo pacote}. \subsubsection{\texorpdfstring{Lendo os dados praias no R}{Lendo os dados praias no R}} \label{sec:lendo_os_dados_praias_no_r} \begin{itemize} \item baixe o arquivo \href{media/cursos/planeco/roteiro/praia01.txt}{ vamos à praia}; \item no Rcmdr, importe o arquivo, que está formatado com campos separados por tabulação e decimal como ponto; \item atribua o nome de \texttt{praia} ao conjunto de dados; \item visualize o conjunto de dados para se familiarizar com as variáveis. \end{itemize} \subsubsection{\texorpdfstring{Um modelo plausível}{Um modelo plausivel}} \label{sec:um_modelo_plausivel} Vamos construir um modelo simmples que tem apenas \texttt{NAP} como variável fixa preditora e a variável \texttt{Beach} como aleatória apenas no intercepto. Esse modelo pode ser descrito no \texttt{lme4} da seguinte forma\footnote{pacotes podem ter diferentes sintaxes para descrever modelos mistos}:\lstset{frame=single} \begin{lstlisting} Richness ~ NAP + (1 | Beach) \end{lstlisting} No Rcmdr siga os passos: \begin{itemize} \item abra o menu \texttt{Statistics} \textgreater \texttt{Fit models} \textgreater \texttt{Linear mixed models...} \item nomeie o modelo como \texttt{lmm.riq} e coloque a fórmula acima nos campos adequados \end{itemize} \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/lmmriq} Em seguida, vamos dar uma olhada no resultado deste modelo que aparece na janela inferior do Rcmdr. \subsubsection{\texorpdfstring{Interpretando o modelo}{Interpretando o modelo}} \label{sec:interpretando_o_modelo} Na figura abaixo temos o resultado resumido do modelo \texttt{lmm.riq}: \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/lmmriqSummary} Vamos começar olhando a parte dos efeitos aleatórios (\texttt{Random effects}). O desvio padrão (\texttt{Std.Dev.}) é uma medida do quanto a variabilidade da nossa variável dependente \texttt{Richness} é particionada aos efeitos aleatórios que estamos analisando (\texttt{Beach}) e o quanto não foi explicado (\texttt{Residual}). Podemos ver em \texttt{Beach} o desvio padrão associado às diferenças de intercepto entre praias ( $\sigma_{\text{praia}}$ do modelo associado ao $\epsilon_{\text{praia}}$). A última linha apresenta o resíduo, que indica o quanto da variabilidade não é prevista pela variável aleatória \texttt{praia} nem pela variável fixa \texttt{NAP}, ou seja, o que não é explicado por nenhum termo do nosso modelo. Na seção \texttt{Fixed effects} são apresentados os coeficientes estimados para cada um dos fatores que estamos considerando como fixos. No caso, temos o intercepto médio\footnote{todas as praias} associado à riqueza quando o \texttt{NAP} é zero (\texttt{6.5819}) e o coeficiente angular de \texttt{NAP} (\texttt{-2.5684}), que indica que há uma diminuição de riqueza da ordem de mais de \texttt{2.5} espécies a cada unidade de \texttt{NAP} acrescida. Note que nesse modelo a inclinação é a mesma para todas as praias e que o intercepto da estrutura fixa é o intercepto médio dos coeficientes da estrutura aleatória do modelo. A correlação dos efeitos fixos é o quanto os coeficientes fixos estimados são correlacionados. Mais formalmente é uma estimativa do quanto teríamos de correlação entre o intercepto e a inclinação se refizessemos o experimento muitas vezes\footnote{No caso, a correlação esperada entre os valores de intercepto e inclinação seria por volta de \texttt{15.7\%}. Essa correlação é calculada à partir da matriz de variância/covariância do modelo e pode ser calculada para qualquer modelo com estrutura fixa. Uma confusão comum é achar que esse valor está associada necessariamente à multicolinearidade das variáveis preditoras, o que não é o caso.}. Apesar de ser apresentada por padrão no resumo do \texttt{lme4} essas correlações não tem uma interpretação direta e muito menos intuitiva \footnote{Segundo alguns autores é útil apenas em casos especiais e não deveria ser apresentada por padrão. Para retirar essa correlação do resumo do modelo é necessário usar o argumento \texttt{correlation = FALSE} na função \texttt{summary}}. \subsubsection{\texorpdfstring{Predito pelo Modelo}{Predito pelo Modelo}} \label{sec:predito_pelo_modelo} Uma boa maneira de interpretar os resultados é a partir do gráfico do predito pelo modelo, se possível junto aos valores das observações dos dados. Temos apresentado gráficos com a experança do modelo ao longo de todo o curso na intenção de auxiliar na interpretação do modelo. Além disso, calcular o predito através dos coeficientes do modelo ajuda a entender a estrutura atrás dos coeficientes. Para fazer o gráfico do modelo ajustado, com a reta média predita pela estrutura fixa do modelo e as retas da estrutura aleatória, preditas para cada praia, vamos criar um objeto no Rcmdr com todos os coeficientes necessários. Copie as linhas de código a seguir no painel superior do Rcmdr (o painel chamado \emph{Rscript}), em seguida, \textbf{selecione todas as linhas copiadas} e clique no botão \texttt{Submit} \footnote{Obs.: As linhas que começam com \texttt{\#} não são lidas pelo Rcmdr e podem ser usadas para comentar as linhas de código, isso ajuda a lembrar o que a linha de código faz}.\lstset{frame=single} \begin{lstlisting} #criando objeto com os coeficientes do modelo (efeitos fixos) fixLMM <- fixef(lmm.riq) fixLMM #criando objeto com os coeficientes do modelo (efeitos aleatorios) randLMM <- ranef(lmm.riq)$Beach randLMM \end{lstlisting} \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/lmmriqCoefs} O predito pela estrutura das variáveis fixas do modelo estimam o \textbf{modelo médio}, que seria a \emph{esperança} do modelo para uma praia média, ponderada pelas observações de cada uma das praias. Além disso, a estrutura aleatória do modelo prediz um intercepto para cada praia das nossas observações a partir da variabiabilidade existente entre praias, definido pelo efeito aleatório $\epsilon_{praia}$. Note que nesse modelo temos apenas um coeficiente de inclinação, pois não modelamos a inclinação na estrutura aleatória do modelo, apenas o intercepto. Mais adiante faremos um modelo incluindo inclinação para a variável aleatória e poderemos comparar os resultados. \subsubsection{\texorpdfstring{Gráfico do Modelo}{Grafico do Modelo}} \label{sec:grafico_do_modelo} Vamos primeiro construir um gráfico base, com os valores observados. Para tornar o gráfico mais informativo vamos colocar cores para identificar em que praia cada observação foi coletada. No código abaixo temos as seguintes sequência de eventos: \begin{itemize} \item \texttt{cores...}: cria um objeto com nove cores tiradas de uma paleta das cores do arco-íris \item \texttt{par(...) }: modifica parâmetros da janela gráfica, no caso abaixo modificamos as margens do gráfico \item \texttt{plot(...)}: cria o gráfico \begin{itemize} \item 1° linha: indica quais variáveis devem estar no eixo Y e X, e em qual objeto estão os dados \item 2° e 3° linhas: modificações de parâmetros do gráfico, como símbolos, letras, etc \end{itemize} \end{itemize} Então, copie os códigos abaixo para a janela superior do Rcmdr (RScript), selecione essas linhas e aperte o botão \texttt{Submit}:\lstset{frame=single} \begin{lstlisting} cores <- rainbow(9) par( mar=c(5,5,2,2)) plot(Richness ~ NAP ,data = praia, pch = 19, col = cores[as.factor(Beach)] , las = 1, cex=1.5, cex.lab= 1.7, cex.axis = 1.5 ) \end{lstlisting} \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/plotpraia} \paragraph{\texorpdfstring{Incluindo o modelo no gráfico}{Incluindo o modelo no grafico}} \label{sec:incluindo_o_modelo_no_grafico} Vamos usar os valores dos coeficientes (aqueles que calculamos anteriormente com as funções \texttt{fixef} e \texttt{ranef}) para representar as esperanças do modelo e criar as retas para cada praia e a reta média. Primeiro o gráfico com as retas de cada praia: Copie os códigos abaixo para a janela superior do Rcmdr (RScript), selecione essas linhas e aperte o botão \texttt{Submit}:\lstset{frame=single} \begin{lstlisting} abline(randLMM[1,'(Intercept)']+ fixLMM[1], fixLMM[2], col=cores[1]) abline(randLMM[2,'(Intercept)']+ fixLMM[1], fixLMM[2], col=cores[2]) abline(randLMM[3,'(Intercept)']+ fixLMM[1], fixLMM[2], col=cores[3]) abline(randLMM[4,'(Intercept)']+ fixLMM[1], fixLMM[2], col=cores[4]) abline(randLMM[5,'(Intercept)']+ fixLMM[1], fixLMM[2], col=cores[5]) abline(randLMM[6,'(Intercept)']+ fixLMM[1], fixLMM[2], col=cores[6]) abline(randLMM[7,'(Intercept)']+ fixLMM[1], fixLMM[2], col=cores[7]) abline(randLMM[8,'(Intercept)']+ fixLMM[1], fixLMM[2], col=cores[8]) abline(randLMM[9,'(Intercept)']+ fixLMM[1], fixLMM[2], col=cores[9]) \end{lstlisting} Para finalizar o gráfico, vamos colocar o predito pelo modelo médio e uma legenda: Repita o mesmo procedimento de copiar, selecionar e ,,submeter":\lstset{frame=single} \begin{lstlisting} abline(fixLMM[1], fixLMM[2], col = "black", lwd=3, lty= 2) legend("topright", c( "praia média",paste("praia", 1:9)) , lty=c(2, rep(1,9)), col= c(1,cores), bty="n", cex=1.2) \end{lstlisting} Ao final o nosso gráfico deve ser parecido com o que está a seguir: \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/praiasLMM} Podemos ver nessa figura a predição do nosso modelo em relação aos parâmetros fixos (reta tracejada em preto) e as predições para cada praia separadamente. Como o efeito aleatório do nosso modelo estava apenas variando os valores de intercepto das praias, as retas para cada praia são paralelas. \subsection{\texorpdfstring{Seleção de Modelo Mistos}{Seleao de Modelo Mistos}} \label{sec:seleao_de_modelo_mistos} Uma questão central em planejamento e análise de dados é decidir como compor um conjunto de modelos plausíveis a partir das hipóteses e um conjunto de variáveis. Além disso, a partir deste conjunto de modelos plausíveis, é preciso tomar a decisão sobre qual\footnote{ou quais} é o melhor para representar nossos dados. Nesse curso utilizamos a partição da variação para comparar modelos aninhados. Vamos continuar a usar o mesmo procedimento, ou seja, fazer o teste de hipótese para comparar modelos dois a dois a partir do modelo cheio para chegar ao mínimo adequado. Esse procedimento se torna mais complexo nos modelos mistos ao envolver a simplificação da estrutura aleatória, além da estrutura fixa, como fizemos nos modelos anteriores. Existem diversas possibilidades de modelos com esses mesmos dados. Por exemplo, podemos adicionar o nível de exposição de cada praia (\texttt{Exposure}) como uma variável preditora fixa categórica e/ou podemos inserir o efeito aleatório da variável \texttt{Beach} na inclinação da variável \texttt{NAP} (efeito fixo). Essa inclusão da interação entre a variável aleatória (\texttt{Beach}) e a preditora fixa contínua (\texttt{NAP}) faz com que cada praia possa também ter uma relação específica com \texttt{NAP} (inclinações de reta diferentes para cada praia), mas sempre ponderadas pela relação média. \paragraph{\texorpdfstring{Ajustando os dados}{Ajustando os dados}} \label{sec:ajustando_os_dados} Os dados que estamos usando estão disponíveis no site do livro do Zuur et al. (2009). A variável \texttt{Exposure} originalmente tem \texttt{3} níveis: \texttt{8}, \texttt{10} e \texttt{11}. Como o nível \texttt{8} foi observado apenas em uma praia, reclassificamos esta praia para o nível seguinte, no caso o \texttt{10} (Zuur et al. 2009). A partir da variável \texttt{Exposure}, criamos a \texttt{fExp} que contempla apenas os valores \textbf{10} e \textbf{11} para designar os dois níveis de exposição das praias. Para tornar essa variável mais explicita com relação ao seu significado vamos transformar os valores \textbf{10} e \textbf{11} de \texttt{fExp} em fatores \textbf{low} e \textbf{high}, nesta ordem, criando uma nova variável \texttt{fExposure}: \begin{itemize} \item abra o menu \texttt{Data} \textgreater \texttt{Manage variables in active data set} \textgreater \texttt{Convert numeric variables to factors...}; \item coloque o nome da nova variável como \texttt{fExposure} no campo \texttt{\textless same as variable\textgreater }; \item deixe selecionada a opção \texttt{Supply level names}; \item no quadro que irá se abrir digite \texttt{low} para o valor \texttt{10} e \texttt{high} para o valor \texttt{11}; \item após criar verifique se a variável foi corretamente criada clicando no botão \texttt{View data set}. \end{itemize} \subsection{\texorpdfstring{Escolha dos efeitos aleatórios}{Escolha dos efeitos aleatorios}} \label{sec:escolha_dos_efeitos_aleatorios} Existem modelos e, portanto, perguntas e delineamentos amostrais que requerem apenas um efeito aleatório para indicar o agrupamento dos dados. Entretanto, como colocado na seção anterior, há também modelos que podem incluir mais de um efeito aleatório. Esse é o caso da interação entre \texttt{praia} e \texttt{NAP} mencionada acima. Para conjunto de modelos plausíveis com diferentes efeito aleatório, Zuur et al. (2009) sugerem um protocolo para a escolha da melhor estrutura de efeitos aleatórios, que vamos seguir neste curso. Os passos principais deste procedimento são listados a seguir. I. Incluir no modelo cheio todos os efeitos fixos de interesse, incluindo termos de interação e qualquer ou estrutura não aleatória, no caso teremos os efeitos fixos: \begin{itemize} \item \texttt{Richness \textasciitilde{} fExposure + NAP + fExposure:NAP} \end{itemize} II. associar a esta estrutura fixa cheia os efeitos aleatórios plausíveis em sua estrutura mais complexa. No nosso exemplo, temos duas possibilidades de efeito aleatório: \begin{itemize} \item apenas variações no intercepto entre praias (\texttt{(1|Beach)}); \item contendo a interação entre praia e NAP, resultando \underline{também} na variação de inclinação entre praias (\texttt{(NAP|Beach)}); \end{itemize} Os modelos mistos serão ajustados utilizando uma forma diferente de estimar os parâmetros. Ao invés da máxima verossimilhança (\emph{ML - Maximum Likelihood}) que utilizamos nos modelos lineares os modelos mistos usam a \textbf{máxima verossimilhança restrita} (\emph{REML - Restricted Maximum Likelihood}). Isso acontece porque a \texttt{ML} é enviesada para as estimativas de variância e a \texttt{REML} corrige esse viés. Na prática, nós não precisamos fazer nada, pois a função \texttt{lmer} do pacote \texttt{lme4}utiliza a \texttt{REML} (argumento \texttt{REML = TRUE}) como padrão. III. utilizar \texttt{anova} para comparar modelos com estruturas aleatórias aninhadas e mesma estrutura fixa cheia, buscando a simplificação da estrutura aleatória. Para que a comparação seja feita com o \texttt{REML} é preciso usar o argumento da função \texttt{anova} como \texttt{refit = FALSE}; IV. Mantenha a estrutura aleatória selecionada e siga simplificando a estrutura fixa, comparando modelos aninhados por \texttt{anova}. Utilize o padrão da \texttt{anova} com o argumento \texttt{refit = TRUE}. Poderíamos também ajustar um modelo sem efeito aleatório (usando a função \texttt{lm}) e ver se a inclusão do efeito aleatório resulta em um melhor ajuste do modelo, entretanto, a dependência entre as amostras de uma mesma praia são parte do desenho experimental dos dados e acreditamos que essa característica deve ser mantida no modelo. Além disso, é importante lembrar que a retirada de todos os efeitos aleatórios superestima os graus de liberdade do modelo, ou seja o modelo linear estaria inflado no seu poder de explicação da variabilidade dos dados. A sequência do procedimento de simplificação da estrutura aleatória para o nosso exemplo, seria: \begin{itemize} \item Criar o modelo \texttt{lmmfull} com todos os efeitos aleatórios, pelo menu do Rcmdr \texttt{Statistic} \textgreater \texttt{Linear mixed models...} deixando o argumento com o padrão \texttt{REML=TRUE} e inserindo os termos do modelo como indicado abaixo: \end{itemize} \lstset{frame=single} \begin{lstlisting} Richness ~ fExposure + NAP + fExposure:NAP + (NAP|Beach) \end{lstlisting} \begin{itemize} \item Em seguida faça o mesmo procedimento para criar o modelo \texttt{lmmint} com a variável aleatória somente no intercepto: \end{itemize} \lstset{frame=single} \begin{lstlisting} Richness ~ fExposure + NAP + fExposure:NAP + (1|Beach) \end{lstlisting} \begin{itemize} \item Compare os modelos anteriores com o comando \texttt{anova} buscando a simplificação do modelo ao mínimo adequado\footnote{note que estes modelos são aninhados, a estrutura aleatória no inclinação \texttt{NAP} incorpora o intercepto também, apesar de não estar explicito na nossa formulação}, usando o menu do Rcmdr \texttt{Models \textgreater Hipothesis tests \textgreater Compare two models...} e selecionando os modelos \texttt{lmmint} e \texttt{lmmfull}. \end{itemize} Um problema com a interface do Rcmdr é que precisamos incluir o argumento \texttt{refit = FALSE} na função \texttt{anova} para garantir que o procedimento irá manter a estimativa por \texttt{REML} e não irá reajustar os modelos por \texttt{ML} antes de comparar os modelos. O padrão da função \texttt{anova} quando aplicada à comparação de dois modelos \underline{mistos} é reajustar para \texttt{ML}. Como a interface não oferece essa opção precisamos editar a linha de comando do painel superior. Quando você clicou \texttt{ok} na função \texttt{anova} de comparação de modelos, apareceu esse código na janela superior do Rcmdr:\lstset{frame=single} \begin{lstlisting} anova(lmmint, lmmfull) \end{lstlisting} copie esse código novamente no painel superior, mas agora inclua a expressão \texttt{refit = FALSE}, como indicado abaixo:\lstset{frame=single} \begin{lstlisting} anova(lmmint, lmmfull, refit= FALSE) \end{lstlisting} Selecione essa linha e clique no botão \texttt{Submit}. O resultado deve ser como o apresentado abaixo: \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/anova01} Note que as estimativas do primeiro resultado (ou seja, da anova com reajuste para ML) e do segundo resultado (ou seja, sem reajuste para ML, usando \texttt{refit = FALSE}) são diferentes. É importante saber que \textbf{no processo de simplificação da \underline{estrutura aleatória} do modelo} devemos ignorar os primeiros resultados, pois \underline{não queremos que seja feito um reajuste para ML}, ou seja, \textbf{queremos que a comparação das estruturas aleatórias seja feita usando as estimativas por REML}. O ,,p-valor" observado nessa comparação é alto, indicando que os modelos não apresentam diferenças marcantes, sendo assim, devemos reter o modelo mais simples e seguimos simplificando. Como só há mais um termo na estrutura aleatória modelando o intercepto, podemos finalizar a seleção da estrutura aleatória aqui. Alguns autores \footnote{inclusive o próprio Zuur do capítulo que indicamos nesse tutorial como leitura} advogam que se nenhum termo da estrutura aleatória for significativo, deve-se abandonar o modelo misto e partir para o modelo linear sem estrutura aleatória. De fato, isso facilitaria muito a interpretação e a apresentação dos resultados do modelo. Porém, outros autores que seguiremos aqui, indicam que devemos manter a coerência do delineamento experimental/amostral e portanto devemos contemplar a dependência das observações de uma mesma praia, utilizando o modelo com a variável aleatória \texttt{Beach} no intercepto. Após simplificar a estrutura de efeito aleatório o resultado é que as praias diferem na riqueza média, mas essa variação das praias não influencia a relação de \texttt{Richness} com o \texttt{NAP}. Note que quando observamos o primeiro gráfico desse tutorial, parecia que a inclusão de diferentes inclinações para cada praia no modelo seria importante. Porém, o resultado desse teste acima nos indica que, apesar de algumas praias terem inclinações aparentemente diferentes, não ganhamos muita informação adicional relevante ao incluir inclinações diferentes para todas as nove praias. \subsection{\texorpdfstring{Estrutura fixa do modelo}{Estrutura fixa do modelo}} \label{sec:estrutura_fixa_do_modelo} O próximo passo é prosseguir com a verificação e simplificação dos efeitos fixos através do mesmo método que utilizamos até então. Relembrando, estamos interessados em verificar se existe um efeito de \texttt{NAP}, \texttt{fExposure} e da interação \texttt{NAP:fExposure} na riqueza de espécies. Começamos com o nosso modelo com todos os efeitos fixos e a estrutura aleatória já simplificada: \lstset{frame=single} \begin{lstlisting} Richness ~ fExposure + NAP + fExposure:NAP + (1|Beach) \end{lstlisting} Primeiro iremos simplificar retirando o termo fixo mais complexo, a interação \texttt{fExposure:NAP}:\lstset{frame=single} \begin{lstlisting} Richness ~ fExposure + NAP + (1 | Beach) \end{lstlisting} Caso o modelo mais simples tenha um poder de explicação da variação dos dados similar ao mais complexo, devemos continuar a simplificação com os modelos só com \texttt{NAP} ou só com \texttt{fExposure}. Nos dois casos iremos comparar com o modelo que contém ambos termos \texttt{fExposure + NAP}, para que os modelos comparados sejam aninhados \footnote{não é possível comparar o modelo só com \texttt{NAP} com o modelo só com \texttt{fExposure}!}. Siga a simplificação até chegar ao modelo mínimo adequado para esse conjunto de dados. \subsubsection{\texorpdfstring{Diagnósticos dos modelos}{Diagnosticos dos modelos}} \label{sec:diagnosticos_dos_modelos} Depois de selecionado o modelo que melhor se ajusta aos nossos dados é sempre necessário avaliar o ajuste deste modelo a suas premissas. O \texttt{Rcmdr} faz alguns gráficos diagnósticos e de efeito do modelo que podem ser explorados no menu: \texttt{Models} \textgreater \texttt{Graph}. Para a construção de outros gráficos diagnósticos podemos carregar o pacote \texttt{lattice}, selecionando-o pelo menu \texttt{Tools} \textgreater \texttt{Load package(s)...}. Depois, copie os códigos abaixo no painel superior (RScript) do Rcmdr, mas, antes de apertar o botão \texttt{Submit} \textbf{substitua o argumento NOME\_DO\_MODELO pelo nome do seu modelo mínimo adequado\footnote{caso não tenha nomeado os modelos, precisa encontrar o nome que o \texttt{Rcmdr} designou ao modelo}}. Depois disso pode selecionar e submeter as linhas de comando. \textbf{Atenção: Faça um gráfico de cada vez e salve o \texttt{pdf} de cada gráfico antes de começar a fazer o próximo}\lstset{frame=single} \begin{lstlisting} ## 1) gráfico quantil-quantil (normalidade) qqmath(NOME_DO_MODELO,id=0.05) \end{lstlisting} \lstset{frame=single} \begin{lstlisting} ## 2) gráfico de valores ajustados x resíduos (homocedasticidade) plot(NOME_DO_MODELO,type=c("p","smooth")) \end{lstlisting} \lstset{frame=single} \begin{lstlisting} ## 3) gráfico de valores ajustados x resíduos padronizados (homocedasticidade) plot(NOME_DO_MODELO,sqrt(abs(resid(.)))~fitted(.), type=c("p","smooth")) \end{lstlisting} \textbf{OPS!} Olhando o gráfico diagnóstico dos resíduos, parece que os dados não são tão homocedásticos como deveriam, pois vemos algo parecido com um funil se abrindo da esquerda para a direita, o que indica que o modelo viola esta premissa. Isso não deveria ser uma surpresa já que a variável \texttt{Richness} é uma contagem e como tal tem a variância acoplada à média. \textbf{E agora??!} Bem, quase sempre existe um caminho! O problema aqui é que assumimos que a riqueza de espécies, uma variável de contagem, poderia ser modelada como uma distribuição normal. Entretanto, dados de contagem geralmente são melhor modelados usando a distribuição de \texttt{Poisson}. Já aprendemos isso no tutorial \href{http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:roteiro:10-glmpoisson}{cursos:planeco:roteiro:10-glmpoisson}. Então, para fazermos a modelagem correta dos nossos dados teremos que usar um modelo com distribuição de \texttt{Poisson} dentro do contexto de modelo misto. Nesse caso teríamos que usar uma classe de modelos que junta o GLM com o LMM que se chama \textbf{Modelo Generalizado Misto}. Mas isso é tema para outro roteiro... \href{http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:roteiro:12-glmm}{cursos:planeco:roteiro:12-glmm} \\ \\ \textbf{PARA ENTREGAR ANTES DA PRÓXIMA AULA} Acesse o \href{https://forms.gle/WBDh238JvtpmuvV9A}{formulário} e responda às questões propostas referentes aos dados sobre a riqueza em praias. \subsection{\texorpdfstring{Modelos Mistos Exemplos}{Modelos Mistos Exemplos}} \label{sec:modelos_mistos_exemplos} Vamos nos debruçar um pouco mais nos modelos mistos olhando outros exemplos, buscando sempre entender o conceito de variáveis fixas e aleatórias e treinando a interpretação do resultado dos modelos \subsection{\texorpdfstring{Cultivando aveia}{Cultivando aveia}} \label{sec:cultivando_aveia} Nesse experimento clássico descrito por Yates em 1935, foram utilizadas três variedades de aveia tratadas com 4 níveis de adubação com nitrogênio. O desenho experimental deste estudo\footnote{\texttt{split-plot}} é bastante complexo e contempla diferentes níveis de dependência das observações que precisam ser incorporadas no modelo como variáveis aleatórias. Vamos entender esse estudo. O primeiro passo é fazer a leitura dos dados do objeto \texttt{oats} que se encontra no pacote \texttt{MASS}: - Carregue o pacote \texttt{MASS} através do menu \texttt{Tools} \textgreater \texttt{Load packages...} \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/loadMass} - Entre no menu \texttt{Data} \textgreater \texttt{Data in packages} \textgreater \texttt{Read data set on attached package...} - Selecione na janela \texttt{Package}: \texttt{MASS} e na \texttt{Data set}: \texttt{oats} \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/oatsData} \subsubsection{\texorpdfstring{Entendendo Aveia}{Entendendo Aveia}} \label{sec:entendendo_aveia} Para entender os dados utilize o menu \texttt{Help} \textgreater \texttt{Help on active data set (if available)} e leia a documentação que irá se abrir onde há uma descrição das variáveis: \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/oatsHelp} O desenho experimental contempla \texttt{6} localidades (\texttt{B} de \emph{Blocks}) distintas, sendo que cada uma apresenta três campos de cultivo (\texttt{plot}) para cada variedade de aveia (\texttt{V} de \emph{Varieties}). Cada campo, por sua vez, é dividido em quatro partes (\texttt{subplot}) com os diferentes tratamentos com adubo nitrogenado (\texttt{N} de \emph{Nitrogen treatment}). No desenho experimental temos um aninhamento de \texttt{bloco} com \texttt{plot} e \texttt{subplot}. Para auxiliar no entendimento deste desenho experimental, preparamos a figura abaixo: \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/Figura Split Plot oats} \subsubsection{\texorpdfstring{Ajustando os dados de Aveia}{Ajustando os dados de Aveia}} \label{sec:ajustando_os_dados_de_aveia} As variáveis \texttt{plot} e \texttt{subplot} não estão nesse conjunto de dados, mas podem ser resgatadas pelo fato de \texttt{plot} ser o campo onde foi cultivada cada variedade. Só precisaremos criar a variável \texttt{plot}, pois a subdivisão dos campos de cultivo nos diferentes níveis de adubação (que seriam os subplots) não precisa ser indicada no modelo, uma vez que essa divisão representa o menor nível hierárquico e a função \texttt{lmer} já reconhece esse nível automaticamente. Para criar \texttt{plot} vamos usar o menu \texttt{Data} \textgreater \texttt{Manage variable in active data set} \textgreater \texttt{Compute new variable} e utilize o nome \texttt{P} (plot) no campo \texttt{New variable name} e no campo \texttt{Expression to compute} insira o código abaixo:\lstset{frame=single} \begin{lstlisting} rep(paste("plot", 1:3, sep=""), each=4) \end{lstlisting} Esse código irá criar uma nova variável \texttt{P} com os níveis \texttt{plot1}, \texttt{plot2} e \texttt{plot3} para cada campo de cultivo de cada variedade de aveia, nos quais os níveis de adubação estão incluídos (4 níveis). Apesar da variável \texttt{P} estar no mesmo nível da variável \texttt{V}, fazemos isso para explicitar que \texttt{P} é diferente de \texttt{V}, sendo que uma representa os campos de cultivo e a outra representa as variedades de aveia cultivadas, respectivamente. Note também que os códigos de \texttt{P} se repetem entre os blocos, apesar de serem unidades distintas, ou seja, o campo de cultivo \texttt{plot1} do bloco I é outro campo de cultivo do que o \texttt{plot1} do bloco II. Por outro lado, as variedades se repetem entre os blocos, ou seja, a variedade \texttt{Marvellous} é \texttt{Marvellous} em qualquer bloco. \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/oatsPlot} \subsubsection{\texorpdfstring{Atividade}{Atividade}} \label{sec:atividade2} \begin{itemize} \item Construa um modelo cheio tendo como variável resposta o rendimento de cultivo (\texttt{ Y }) e como preditoras as variáveis fixas variedade (\texttt{ V }), adubação nitrogenada (\texttt{ N }) e a interação entre as duas. Como estrutura aleatória utilize o fator aleatório plot (\texttt{ P }) aninhado dentro de bloco (\texttt{ B }), com a sintaxe \texttt{(1|B/P)}. Note que, como não temos variáveis fixas contínuas, apenas categóricas, não há como modelar a inclinação do modelo, apenas o intercepto. \item Faça a simplificação da estrutura fixa das preditoras e chegue ao modelo mínimo adequado. \item Faça a interpretação biológica do resultado baseado nos coeficientes fixos e da variação associada aos fatores aleatórios. \end{itemize} Se você se interessou pelos modelos mistos e acha que eles se encaixam no seu problema, não deixe de conferir as referências listadas abaixo para se aprofundar. Os modelos mistos são muito flexíveis e uma ferramenta poderosa para comtemplar muitas das dependencias que temos em desenhos experimentais na biologia. \\ \\ \subsection{\texorpdfstring{Exercício}{Exercicio}} \label{sec:exercicio} \textbf{PARA ENTREGAR ANTES DA PRÓXIMA AULA} Acesse o \href{https://forms.gle/ciCcS4ytXDBJyrfn9}{formulário} e responda às questões propostas referentes aos dois exemplos (Praias e Aveia) trabalhados nesse tutorial. \subsection{\texorpdfstring{Referências e recomendações}{Referencias e recomendaoes}} \label{sec:referencias_e_recomendaoes} Bates, et al. 2014.\href{http://arxiv.org/abs/1406.5823}{Fitting linear mixed-effects models using lme4. arXiv preprint arXiv:1406.5823.} (publicação do pacote `lme4`) Burnham, K. \& Anderson, D. 2002.\href{http://gen.lib.rus.ec/book/index.php?md5=0572C2F65088CFA05EC3757297DBC173}{ Model selection and multimodel inference: a practical information-theoretic approach}. 2nd edn. New York: Springer-Verlag. (Livro sobre a abordagem de seleção de modelos baseada em Teoria da Informação) McGill, B. 2015.\href{https://dynamicecology.wordpress.com/2015/11/04/is-it-a-fixed-or-random-effect/}{ Is it a fixed or random effect?} Blog Dynamic Ecology. (Uma boa discussão sobre o que são efeitos fixos e aleatórios) Winter, B. 2013.\href{http://arxiv.org/pdf/1308.5499.pdf}{ Linear models and linear mixed effects models in R with linguistic applications. arXiv:1308.5499.} (Nesse excelente roteiro, o autor explica modelos lineares e depois apresenta modelos mistos de uma forma bem didática) Yates, F. 1935.\href{https://www.jstor.org/stable/2983638}{ Complex experiments. Journal of the Royal Statistical Society Suppl. 2, 181-247}. (O experimento de aveia que tratamos nesse roteiro é descrito nesse artigo). Zuur, A., Ieno, E., Walker, N., Saveliev, A. \& Smith, G. 2009.\href{http://gen.lib.rus.ec/search.php?req=mixed+effect+models+and+extensions+with+r\&lg_topic=libgen\&open=0\&view=simple\&res=25\&phrase=1\&column=def}{ Mixed effects models and extensions in ecology with R.} (Livro muito bom e completo sobre modelos mistos e aditivos) \end{document}