\documentclass[a4paper, oneside, 10pt]{article} \usepackage[unicode]{hyperref} \usepackage[utf8x]{inputenc} \usepackage[english]{babel} \usepackage{graphicx} \graphicspath{{media/}} \date{\today} \title{} \author{} \begin{document} \begin{itemize} \item \href{http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:roteiro:08b-lmii_rcmdr}{\includegraphics[keepaspectratio=true,width=0.8\textwidth]{planeco/logorcmdr01} } \item Array \end{itemize} \subsection{\texorpdfstring{Modelos Lineares Simples II}{Modelos Lineares Simples II}} \label{sec:modelos_lineares_simples_ii} Os modelos lineares são a base para o entendimento de todos os modelos mais complexos que iremos abordar durante este curso. Caso ainda não tenha feito o roteiro \href{http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:roteiro:08-lm_rcmdr}{cursos:planeco:roteiro:08-lm_rcmdr}, retorne a ele. \subsubsection{\texorpdfstring{Modelo Linear: partição da variação}{Modelo Linear partiao da variaao}} \label{sec:modelo_linear_partiao_da_variaao} Os modelos lineares podem ser analisados através do método de partição de variância que aprendemos no roteiro de \href{http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:roteiro:07b-anovarcmdr}{:cursos:planeco:roteiro:07b-anovarcmdr}. Caso não tenha sedimentado bem o conceito, retorne ao roteiro e reveja a videaula, isso será importante para acompanhar o restante deste roteiro. Assim como na análise de variância clássica onde a preditora é uma variável categórica, podemos particionar a variação total existente nos dados nas porções explicadas e não explicadas por uma \textbf{variável contínua preditora}. Esse particionamento da variação no caso de um modelo linear simples é análogo ao que acontece em uma análise de variância tradicional, com a diferença que essa última só pode ser aplicada para variáveis preditoras categóricas. \href{https://youtu.be/C4urUFRGDvo}{Link do vídeo no canal do youtube} \raggedleft\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/lagartaTrans} A nossa próxima atividade usa os dados de crescimento de lagartas submetidas a dietas de folhas com diferentes concentrações de taninos presente no livro \href{http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:material:start\%23leituras_recomendadas}{The R Book (Crawley, 2012)}. São apenas duas variáveis, \textbf{growth}, o crescimento da lagarta, e \textbf{tannins}, a concentração de taninos. O objetivo é verificar se há relação entre o crescimento da lagarta e a concentração de taninos da dieta. \subsubsection{\texorpdfstring{Desvios Quadráticos}{Desvios Quadraticos}} \label{sec:desvios_quadraticos} \begin{itemize} \item baixe o arquivo \href{media/planeco/roteiro/regression.txt}{regression.txt}; \item abra o arquivo no Excel, selecionando a separação de campo como tabulação; \item calcule a média de crescimento das lagartas; \item calcule o intercepto e a inclinação do modelo linear no próprio excel, usando as funções descritas no quadro abaixo; \end{itemize} Para o cálculo dos parâmetros da reta use as funções do Excel: \begin{itemize} \item \textbf{\texttt{INCLINAÇÃO}} \footnote{SLOPE no LibreOffice}: veja documentação da função \href{https://support.microsoft.com/pt-br/office/inclina\%C3\%A7\%C3\%A3o-fun\%C3\%A7\%C3\%A3o-inclina\%C3\%A7\%C3\%A3o-11fb8f97-3117-4813-98aa-61d7e01276b9}{aqui}. \item \textbf{\texttt{INTERCEPÇÃO}} \footnote{INTERCEPT no LibreOffice}: Veja a documetação da função \href{https://support.microsoft.com/pt-br/office/intercep\%C3\%A7\%C3\%A3o-fun\%C3\%A7\%C3\%A3o-intercep\%C3\%A7\%C3\%A3o-2a9b74e2-9d47-4772-b663-3bca70bf63ef}{aqui} \end{itemize} \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/lmExcel01} \begin{itemize} \item em uma coluna chamada \textbf{desvio total} calcule o desvio total de cada observação (o crescimento observado menos a média do crescimento); \item nomei uma coluna \textbf{desvios quadráticos totais} e eleve ao quadrado os valores da coluna criada anteriormente; \item some esses valores para obter a soma dos desvios quadráticos total nomeado como \textbf{Variação Total} \item calcule o valor predito pelo modelo em uma coluna chamada \textbf{predito}; \end{itemize} \textbf{\underline{Predito pelo modelo}} A predição do modelo é calculada pela equação da reta: $$ \hat{y_i} = a + b * x_i $$ a = intercepto b = inclinação $x_i$ = valor de x da observação \texttt{i} $\hat{y_i}$ = valor predito para a observação \texttt{i} \begin{itemize} \item em uma coluna chamada \textbf{residuo} calcule a diferença entre cada observação e o respectivo valor predito pelo modelo; \item crie uma outra coluna (\textbf{residuo\textasciicircum{}2}) com os valores de resíduos quadrático do modelo para cada observação (observado menos o predito pelo modelo ao quadrado); \item some os desvios quadráticos dos resíduos para calcular a soma dos desvios quadráticos do modelo e nomeie esse valor como \textbf{Variação Resido\textasciicircum{}2}; \item faça a diferença entre a soma dos desvios quadráticos total pela soma dos desvios quadráticos dos resíduos para calcular a \texttt{Variação Explicada} pelo modelo; \end{itemize} \subsubsection{\texorpdfstring{Tabela de Anova de um Modelo Linear}{Tabela de Anova de um Modelo Linear}} \label{sec:tabela_de_anova_de_um_modelo_linear} A partir da partição da variação dos desvios quadráticos explicado pela preditora (\texttt{tannin}) e não explicado (\texttt{residuos}) podemos montar uma tabela de anova da mesma forma que fizemos no tutorial \href{http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:roteiro:07b-anovarcmdr}{Testes Clássicos: ANOVA} \subsubsection{\texorpdfstring{Tabela de Anova Dieta de Lagarta}{Tabela de Anova Dieta de Lagarta}} \label{sec:tabela_de_anova_dieta_de_lagarta} A tabela de anova tem as seguintes colunas e linhas: \begin{itemize} \item colunas: \texttt{soma quadrática}, \texttt{graus de liberdade}, \texttt{média quadrática}, \texttt{F} e \texttt{p-valor} \item linhas: \texttt{Modelo}, \texttt{Resíduo}, \texttt{Total} \end{itemize} \begin{itemize} \item monte uma tabela de ANOVA com as somas quadráticas como no \href{http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:roteiro:07-classrcmdr\%23anovaanalise_de_variancia}{tutorial de anova}; \end{itemize} \subsubsection{\texorpdfstring{Equações}{Equaoes}} \label{sec:equaoes} \paragraph{\texorpdfstring{Somas Quadráticas}{Somas Quadraticas}} \label{sec:somas_quadraticas} $$SS_{TOTAL} = \sum_{i=1}^n (y_{i} - \bar{y})^2$$ $$SS_{res} = \sum_{i=1}^n (y_{i} - \hat{y_i})^2$$ $$SS_{TOTAL} = SS_{regr} + SS_{res} $$ $\bar{y}$ = média da variável resposta $\hat{y_i}$ = valor estimado pelo modelo para $x_i$ \begin{itemize} \item Calcule o p-valor associado à estatística F do modelo \end{itemize} Utilize no excel o valor \texttt{1- DIST.F(F, df1, df2, VERDADEIRO)\footnote{F.DIST no LibreOffice}} para o cálculo do p-valor sendo F o valor da estatística F calculada, \texttt{df1} o grau de liberdade da regressão (normalmente \texttt{1}) e \texttt{df2} o valor de graus de liberdade do cálculo dos desvios quadráticos médios dos resíduos (\texttt{n - 2}) que é o número de observações menos dois graus relativos ao cálculo do intercepto e da inclinação. \begin{itemize} \item calcule o $r2$ (coeficiente de determinação) da regressão \footnote{desvios quadráticos da regressão dividido pelo soma dos desvios quadrático total}; \item salve a planilha completa para envio no formulário. \end{itemize} $$ R^2 = \frac{SS_{regr}}{SS_{TOTAL}} $$ \subsubsection{\texorpdfstring{Modelo Linear: tabela de anova no R}{Modelo Linear tabela de anova no R}} \label{sec:modelo_linear_tabela_de_anova_no_r} Vamos agora fazer a \texttt{tabela de Anova} no R \begin{itemize} \item leia os dados \href{media/cursos/planeco/roteiro/lagarta.txt}{lagarta.txt} no Rcommander, não esqueça de selecionar \texttt{Tabs} como separador de campo\footnote{confira que os dados foram lidos corretamente}; \end{itemize} \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/readLagarta} \begin{itemize} \item monte um novo modelo linear, chamado \texttt{lmLag01}, pelo menu (\texttt{ Statistics} \textgreater \texttt{Fit Models} \textgreater \texttt{Linear Models}), selecione: \begin{itemize} \item \texttt{growth} como variável resposta; \item \texttt{tannin} como variável preditora; \end{itemize} \end{itemize} \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/lmLag} \begin{itemize} \item interprete o resultado desse modelo \item faça a tabela de ANOVA do modelo gerado (\texttt{Models} \textgreater \texttt{Hipothesis test} \textgreater \texttt{Anova table}); \item durante o curso iremos usar a \texttt{tabela de ANOVA tipo I} onde a partição de variância é sequencial na ordem que os fatores são incluídos no modelo\footnote{Quando se tem mais de uma preditora é possível calcular a partição da variação em diferentes sequências, por isso existem tipos diferentes de tabelas de ANOVA}; \item marque a opção: \textbf{ Sequential (,,Type I")}; \end{itemize} \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/planeco/roteiro/RcmdrAnova} \begin{itemize} \item compare os valores calculados na planilha eletrônica com a tabela de ANOVA do modelo linear do Rcmdr, reconheça a partição da variação em ambos. \end{itemize} \subsubsection{\texorpdfstring{Modelo Mínimo}{Modelo Minimo}} \label{sec:modelo_minimo} Com esses mesmos dados podemos construir o modelo denominado \textbf{mínimo} ou \textbf{nulo}. No experimento de crescimento da lagarta, a hipótese nula é que \texttt{tannin} não tem efeito em \texttt{growth}. Podemos construir o modelo que representa esse cenário, criando o modelo em que \texttt{growth} não tem preditoras. \begin{itemize} \item garanta que o os dados \texttt{lagarta} estão ativos no Rcmdr; \item monte um novo modelo linear, chamado \texttt{lmLag00}, pelo menu (\texttt{ Statistics} \textgreater \texttt{Fit Models} \textgreater \texttt{Linear Models}), selecione: \begin{itemize} \item \texttt{growth} como variável resposta; \item inclua \texttt{1},numeral um, como variável preditora\footnote{esta é a forma de dizer ao R que nosso modelo não tem preditoras}; \end{itemize} \end{itemize} \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/lmLag00} \begin{itemize} \item monte a tabela de anova do modelo \texttt{lmLag00} no menu: \texttt{Models} \textgreater \texttt{Hipothesis tests} \textgreater \texttt{ANOVA table} \end{itemize} Não há muito a ser interpretado nos resultados do modelo mínimo, mas reconheça os valores que são estimados no resultado do modelo em \texttt{Coefficients Estimate}. Note que neste modelo não há inclinação, pois não existe preditora. Na tabela de ANOVA verifique o valor do \texttt{Sum Sq Residuals} e reconheça onde ele se encontra na tabela de ANOVA montada na planilha eletrônica. \subsubsection{\texorpdfstring{Comparando Modelos}{Comparando Modelos}} \label{sec:comparando_modelos} O procedimento de partição da variação e calculo da razão entre variâncias pode ser generalizado e utilizada como critério para comparação de modelos aninhados. Modelo são considerados aninhados quando o mais complexo engloba todos as variáveis do mais simples, e por consequência, o modelo mais simples não pode explicar mais variação do que o mais complexo. O modelo \texttt{lmLag00} é aninhado ao modelo \texttt{lmLag01} e por isso podemos fazer a comparação entre eles pelo critério de partição da variação como segue. \textbf{\underline{ Comparando modelo com o mínimo (nulo) no Rcmdr}} \begin{itemize} \item confira se na caixa \texttt{Model:} existem os modelos \texttt{lmLag00} e \texttt{lmLag01}; \item utilize o menu \texttt{Models} \textgreater \texttt{Hypothesis Test} \textgreater \texttt{Compare two models}; \item na caixa que se abre selecione \texttt{lmLag00} e \texttt{lmLag01} para comparação; \end{itemize} \centering\includegraphics[keepaspectratio=true,width=0.8\textwidth]{cursos/planeco/roteiro/compareAnovaLag00} \begin{itemize} \item compare os valores dessa tabela de comparação entre modelos com a tabela de ANOVA do modelo \texttt{lmLag01}; \item reconheça os valores das partições de variação em ambos os casos. \end{itemize} Na comparação de modelos a razão de variância é relacionada ao quanto o modelo mais complexo explica da variação dos dados em relação ao modelo mais simples. De uma certa forma, a \texttt{tabela de ANOVA} no R sempre apresenta a partição da variância da comparação de dois modelos aninhados. A \texttt{tabela de ANOVA} de um modelo isolado é equivalente a comparar o modelo em questão com o modelo mínimo (nulo) correspondente. O entendimento desses conceitos é fundamental para utilizarmos a partição de variação como crítério para a tomada de decisão sobre qual modelo melhor explica nossos dados. \href{https://youtu.be/M9WGxjIhGqg}{Link do vídeo no canal do youtube} Nesse ponto, é desejável que tenha entendido que a partição da variância de um modelo é correspondente a compará-lo com o modelo mínimo (nulo), ou seja, quanta variância o modelo é capaz de explicar em relação ao modelo sem nenhuma preditora. Este modelo mínimo, representado por apenas um parâmetro, a média da variável resposta, apresenta toda a variação dos dados contida nos seus resíduos. \textbf{\underline{Diagnóstico do Modelo Linear}} O diagnóstico do modelo linear é feito baseado nas premissas associadas ao modelo e para verificar a influência de cada observação na estimativa dos parâmetros do modelo. Os nossos dados precisam estar acoplados às premissas do modelo linear e não é desejável que o modelo seja definido apenas por uma ou por poucas observações influentes. As principais premissas dos modelos lineares são: \begin{itemize} \item a relação entre a variável preditora e a resposta é linear; \item a variabilidade tem estrutura de uma variável aleatória normal; \item a variabilidade na resposta é constante ao longo de toda a amplitude da preditora; \end{itemize} Além disso, avaliamos, para cada observação, sua alavancagem (leverage), definida pelo quanto a observação se afasta da média dos dados, e a sua influência (distância de Cook), definida como o quanto os parâmetros estimados são alterados ao se retirar esta observação dos dados. Caso ainda tenha dúvidas sobre o diagnóstico dos modelos revisite o tutorial \href{http://labtrop.ib.usp.br/doku.php?id=cursos:planeco:roteiro:07a-clasrcmdr}{ Regressão Linear} para sedimentar o diagnóstico dos modelos lineares. \textbf{ \underline{PARA ENTREGAR ANTES DO INÍCIO DA PRÓXIMA AULA} } \begin{itemize} \item Preencha o \href{https://docs.google.com/forms/d/e/1FAIpQLSfG1mlzaPlFMy1T3qvsNTTWkF_4ilq8m_xjoQ7bYnu-0Dchww/viewform?usp=sf_link}{formulário neste link}. Caso não consiga, encaminhe as repostas e documentos aos professores (\textbf{planecousp@gmail.com}), indicando como ,,Assunto": \textbf{Modelos Lineares Simples II}. \end{itemize} \end{document}