====== Modelos Lineares Múltiplos ====== ===== Simplificando Modelos ===== Durante o curso usaremos o procedimento de simplificar o modelo a partir do modelo cheio. O procedimento consiste em comparar modelos aninhados, dois a dois, retendo o que está mais acoplado aos dados. Caso os modelos não sejam diferentes no seu poder explicativo, retemos o modelo mais simples, apoiados no princípio da parcimônia. ==== Princípio da parcimônia (Navalha de Occam) ==== * número de parâmetros menor possível * linear é melhor que não-linear * reter menos pressupostos * simplificar ao mínimo adequado * explicações mais simples são preferíveis ==== Método do modelo cheio ao mínimo adequado ==== - ajuste o modelo máximo (cheio) - simplifique o modelo: * inspecione os coeficientes (summary) * remova termos não significativos - ordem de remoção de termos: * interações não significativas (primeiro as de maior ordem) * termos quadráticos ou não lineares * variáveis explicativas não significativas * agrupe níveis de fatores sem diferença * ANCOVA: intercepto não significativos -> 0 ==== Tomada de decisão ==== ** A diferença não é significativa: ** * retenha o modelo mais simples * continue simplificando **A difereça é significativa: ** * retenha o modelo complexo * este é o modelo __MINÍMO ADEQUADO__ ===== Interação entre preditoras ===== A interação é um elemento muito importante quando temos mais de uma preditora, pois desconsiderá-la pode limitar o entendimento dos processos envolvidos. Um exemplo cotidiano da interação é visto no uso de medicamentos e o alerta da bula sobre interação medicamentosa ou efeitos colaterais para pessoas portadoras de doenças crônicas. Dizemos que um medicamento tem interação com outra substância quando o seu efeito é modificado pela presença de outra substância, como por exemplo a ingestão de álcool junto com muitos medicamentos. Nos modelos, a interação tem uma interpretação similar, a resposta pelo efeito de uma variável preditora se altera com a presença de outra preditora. ==== Simulando um experimento plausível ==== Vimos que existe um efeito do tipo de solo na produção de um cultivar no exemplo de ANOVA. Uma expectativa plausível é que a adição de adubo também tenha efeito na produtividade e modifique o efeito do solo. Esse é nosso próximo exemplo. Para ele vamos usar uma simulação de dados similar ao que fizemos no modelo linear simples. Nos dados originais do exercício de ANOVA a produtividade média nos solos foi de: * arenoso: 9.9 * argiloso: 11.5 * humico: 14.3 Vamos, a partir dessa informação, criar um experimento onde, além da diferença do solo, metade dos cultivos foram tratados com adubo orgânico. * 1. Abra a planilha {{ :cursos:planeco:roteiro:crop2Anova.csv | colheita}}, no excel: {{:cursos:planeco:roteiro:crop2nova.png?500|}} *2. Preencha as médias de produtividade no tratamento com adubo com o seguintes valores: * arenoso: + 2.7 * argiloso: + 0.7 * humico: + 0.2 *3. Preencha a célula ** D2** da coluna resíduo com a fórmula //** = INV.NORM.N(ALEATÓRIO(); 0 ; 1)**//((Essa expressão retorna valores associados a uma distribuição normal com média 0 e desvio padrão 1)); Ao final sua planilha deve estar preenchida como a que segue, apenas com os valores da coluna resíduo diferentes: {{:cursos:planeco:roteiro:crop2novaFim.png?500|}} **__ATIVIDADE__** * 1. Abra a planilha preenchida no Rcmdr * 2. Monte o modelos linear com as preditoras e sua interação (**solo**, **adubo** e **solo:adubo**) para a resposta **__prodCampo__** * 3. Interprete os valores dos coeficientes do modelo (summary) e calcule, a partir deles, os valores preditos pelo modelo para cada um dos tratamentos * 4. Compare os preditos com relação aos valores utilizados para gerar os dados de **prodCampo** * 5. Preencha a [[https://docs.google.com/spreadsheets/d/1ISjeCppXA4kP-l_6uHPLst7GecvXRak6vryS9UqY0Rw/edit?usp=sharing|planilha google]] com os resultados do modelo **__Interpretando Variáveis Indicadoras (Dummy)__** As variáveis indicadoras devem ser interpretadas com cuidado. No exemplo acima, o modelo pode ser descrito da seguinte forma: $$ y_{tr} = \alpha + \beta_1 * arg + \beta_2 * hum + \beta_3 * adubo + \beta_4 * arg * adubo + \beta_5 * hum * adubo $$ As variáveis __arg__, __hum__ e __adubo__ são dummy ou indicadoras, representadas por 1 quando presente e 0 quando ausentes. $\alpha, \beta_i$ representam as estimativas do modelo e estão relacionados, nesse caso, ao efeito de cada tratamento. Para calcular o valor predito para o tratamento no solo arenoso com adubo, temos: $$ y_{arenAdubo} = \alpha + \beta_3 * adubo $$ Isso em decorrência do tratamento **arenoso sem adubo** estar representado pelo intercepto ($\alpha$) do modelo. Para o tratamento de solo **argiloso com adubo** o predito é: $$ y_{argAdubo} = \alpha + \beta_1 * arg + \beta_3 * adubo + \beta_4 * arg * adubo $$ E assim por diante, usando as variáveis indicadoras e os coeficientes estimados para o cálculo do predito pelo modelo. ===== Interação entre preditoras: contínua e categórica ===== - abra o arquivo {{ :planeco:roteiro:davis.csv |}} no R ou no Rcmdr - monte o modelo para peso com relação às variáveis preditoras: altura, sexo e suas interação. - a partir do modelo mais cheio, simplifique o modelo até o mínimo adequado - apresente o resultado em um gráfico ===== Peso de bebês ao nascer ===== * abra o arquivo {{ :planeco:roteiro:babies.csv |}} no R ou Rcmdr * faça um modelo plausível com as variáveis: * resposta **bwt** : peso do bebê ao nascer * preditoras: * gestation: tempo de gestação (dias) * age: idade * weight: peso * smoke: 0 não fumante; 1 fumante * interações: até a 3 ordem para aquelas que são plausíveis e passíveis de interpretação biológica * selecione o modelo mínimo plausível pelo método de simplificação para mínimo adequado * interprete o resultado ===== Exercício Extra ===== Um artigo recente (Fisher, R. & Ai C. 2018)((note que temos dois homônimos aqui, o mais famoso estatístico e um critério de seleção de modelos juntos, como autores!! Os outros nomes foram omitidos propositadamente.)) sobre métodos de regressões múltiplas, apresenta dados sobre peixes de recifes de corais. Entre as questões apresentadas pelos autores originais do trabalho estava se a biomassa de diferentes guildas de peixes em zonas protegidas ou não de recifes. Aqui vamos usar apenas a guilda de peixes que se alimentam de plânctons e apenas parte das preditoras. O método desenvolvido no artigo é uma forma de automatizar a seleção de preditoras em modelos com muitas variáveis potenciais de influenciar a resposta. * faça uma análise exploratória das variáveis do dados {{ :cursos:planeco:roteiro:plankivore.csv |}} e suas relações; * monte o modelo mínimo adequado, partindo de todas as variáveis preditoras e suas interações; * verifique se não há nenhuma variável com relação não linear com a biomassa, e se houver use mais uma variável representada pelo quadrado dessa variável; * ao final faça o diagnóstico do modelo e veja se o resíduo cumprem com as premissas do modelo linear; * caso diagnostique problema no modelo, transforme a variável resposta usando o logaritmo natural; * refaça a seleção e o diagnóstico com a resposta na escala log; * interprete o resultado. {{ :cursos:planeco:roteiro:Fisher_et_al-2018-Ecology_and_Evolution.pdf | Fisher, R.; Ai C. L. et al. 2018. A simple function for full-­subsets multiple regression in ecology with R. Ecology and Evolution 8: 6104-6113}}