====== Modelos Lineares Múltiplos I ====== {{:cursos:planeco:roteiro:datamodel.jpg?300|}} Uma extensão do modelo linear simples ((modelo linear com apenas uma preditora)) são os modelos lineares com mais de uma preditora, aqui definido como modelos múltiplos. Quando temos mais de uma preditora o modelo aumenta em complexidade com mais parâmetros para estimar. Além disso, a estrutura mais complexa do modelo gera desafios para a interpretação e dificulta a avaliação da adequação do modelo aos dados. Uma primeira complexidade está relacionada a como simplificar a estrutura do modelo com a finalidade de facilitar a interpretação e melhorar a estimação dos parâmetros. A tomada de decisão sobre quais variáveis devemos reter em nosso modelo e quais podem ser retiradas, por não terem efeito na variável resposta, pode ser feita utilizando diferentes critérios e técnicas. A seguir apresentamos uma das técnicas utilizadas para essa tomada de decisão e que iremos utilizar ao longo desse curso. Outros critérios ou técnicas podem ser utilizadas com vantagens ou desvantagens em relação ao que utilizaremos. Não é objetivo desse curso se debruçar sobre essas diferentes técnicas. {{youtube>89hcuYp9oWo}} ===== Duas preditoras categóricas ===== O primeiro exemplo que iremos trabalhar é baseado nos dados utilizados para exemplificar o [[cursos:planeco:roteiro:07b-anovarcmdr#particao_da_variancia|teste de Anova]]. Vamos criar um experimento plausível a partir dele. ==== Simulando um experimento plausível ==== Vimos que existe um efeito do tipo de solo na produção de um cultivar. Uma expectativa plausível é que a adição de adubo também tenha efeito na produtividade. Ou seja, os tipos de solo tem produtividade diferente, assim como o adubo aumenta a produtividade. Nos dados originais do exercício de ANOVA a produtividade média nos solos foi de: * arenoso: 9.9 * argiloso: 11.5 * humico: 14.3 Vamos, a partir dessa informação, criar um experimento onde, além da diferença do solo, metade dos cultivos foram tratados com adubo orgânico. * 1. Abra o arquivo {{ :cursos:planeco:roteiro:cropMult.xlsx |cropMulti}} em uma planilha eletrônica: {{ :cursos:planeco:roteiro:cropMult01.jpg?500| }} *2. Preencha a coluna ''efeitoAdubo'' com o valor de ''1.2'' para todas as parcelas adubadas ((coluna ''adubo'' igual a ''sim'')) e ''0'' para aquelas que não foram ((coluna ''adubo'' igual a ''não'' )). *3. Preencha a célula ** E2** da coluna ''desvios normal'' com a fórmula //** = INV.NORM.N(ALEATÓRIO(); 0 ; 1.5)**//((Essa expressão retorna valores associados a uma distribuição normal com média 0 e desvio padrão 1.5. Para libreoffice use '' = NORM.INV(RAND(), 0, 1.5)'')). *4. Some os valores em uma mesma linha Ao final sua planilha deve estar preenchida como a que segue, apenas com os valores da coluna resíduo diferentes: {{:cursos:planeco:roteiro:adubo02.png?500|}} __**Procedimentos**__ * 1. Salve a planilha e abra os dados no Rcmdr. * 2. Produza um modelo chamado ''mlSolo_Adubo'' da seguinte forma: ''prodCampo ~ solo + adubo'' * 3. Avalie o modelo pelo seu sumário e pela tabela de Anova ===== Modelos Plausíves ===== O nosso modelo tem duas preditoras e pode ser simplificado. Nesse caso, como temos poucas possibilidades de comparação, podemos comparar todas os modelos plausíveis. O que produzimos acima tem o efeito de solo e de adubo, podemos pensar em mais algumas possibilidades de modelo: * **__mlSolo__** só com o efeito do solo: ''prodCampo ~ solo'' * **__mlAdubo__** só com efeito do adubo: ''prodCampo ~ adubo'' * **__mlNull__** sem efeito de solo ou adubo: ''prodCampo ~ 1'' O valor ''1'' na última formula indica que o modelo não tem nenhuma variável preditora ((o valor 1 indica que a resposta é predita apenas pela sua própria média)) caixa de sugestão ==== Interação entre preditoras ==== {{youtube>Mx9skekN6e8}} Na comparação acima, desconsideramos um elemento importante que emerge quanto temos mais de uma preditora, a possibilidade de uma variável preditora interferir no efeito de outra, efeito esse chamado de interação. A interação é um elemento muito importante quando temos mais de uma preditora, pois desconsiderá-la pode limitar o entendimento dos processos envolvidos. Um exemplo cotidiano da interação é visto no uso de medicamentos e o alerta da bula sobre interação medicamentosa ou efeitos colaterais para pessoas portadoras de doenças crônicas. Dizemos que um medicamento tem interação com outra substância quando o seu efeito é modificado pela presença de outra substância, como por exemplo a ingestão de álcool junto com muitos medicamentos. Nos modelos a interação tem uma interpretação similar, a resposta pelo efeito de uma variável preditora se altera com a presença de outra preditora. Muitas vezes a interação pode ser o efeito de interesse do estudo, como na pergunta: //O efeito do tamanho do fragmento na diversidade de plantas dependendo do seu grau de isolamento?// * Na comparação de modelos acima, não incluímos o termo da interação. Produza o modelo abaixo incluindo o termo da interação e compare esse modelo com o selecionado no procedimento acima. ''prodCampo ~ solo + adubo + solo:adubo'' Não é esperado encontrar interação entre as preditoras nos dados simulados da maneira como fizemos, ele pode emergir apenas por acaso, apenas porque temos uma variável aleatória ((se o termo da interação foi signficativa, confira os cálculos e mantenha o resultado como está, esse resultado emerge com baixa frequência )). Da maneira como simulamos os dados temos duas preditoras que tem efeitos aditivos onde não há interação. Uma outra forma de dizer isso é que o efeito do ''adubo'' não interfere no efeito do ''solo'', ou que esses efeitos são independentes. A interpretação biológica nesse caso também pode ser feita independentemente. ==== Simulando dados com interação ==== Seguindo a mesma abordagem anterior, vamos produzir dados simulando a interação entre as variáveis ''solo'' e ''adubo''. Para isso precisamos produzir dados em que o efeito do adubo depende do tipo de solo. - Abra o arquivo {{ :cursos:planeco:roteiro:cropMult.xlsx |cropMulti}} em uma planilha eletrônica: {{ :cursos:planeco:roteiro:cropMult01.jpg?500| }} - Preencha a coluna ''efeitoAdubo'' com os valores: * 2.7 para ''arenoso'' com ''adubo'' igual a ''sim'' * 0.7 para ''argiloso'' com ''adubo'' igual a ''sim'' * 0.2 para ''humico'' com ''adubo'' igual a ''sim'' - O campos da coluna ''efeitoAdubo'' onde ''adubo'' é igual a ''não'' devem ser preenchidos com ''0'' - Preencha a célula ** E2** da coluna ''desvios normal'' com a fórmula //** = INV.NORM.N(ALEATÓRIO(); 0 ; 1.5)**//((Essa expressão retorna valores associados a uma distribuição normal com média 0 e desvio padrão 1.5. Para libreoffice use '' = NORM.INV(RAND(), 0, 1.5)'')). - Some na coluna ''prodCampo'' os valores ''prodSolo + efeitoAdubo + desviosNormal'' Ao final sua planilha deve estar preenchida como a que segue, apenas com os valores da coluna resíduo diferentes: {{:cursos:planeco:roteiro:cropMult02.jpg?500|}} __**Procedimentos**__ - Salve a planilha com **um nome diferente** para não sobrescrever a planilha de dados usada anteriormente e importe os dados para o Rcmdr. **Atenção nomeio os dados na aba de importação com um nome diferente dos dados importados anteriormente, em alguns casos o Rcmdr não importa se a planilha e os dados importados tiverem o mesmo nome de uma importação anterior** - Produza o modelo cheio ''mlSolo_AduboAll'' com a seguinte formula: * ''prodCampo ~ solo + adubo + solo:adubo'' - Faça a seleção do modelo mínimo adequado utilizando o procedimentos de comparação de modelo pela partição de variância - Avalie o modelo selecionado pelo sumário e pela tabela de Anova. Reconheça os valores utilizados para gerar os dados a partir das estimativas do modelo. - Preencha a aba ''cropInt2020'' da planilha [[https://docs.google.com/spreadsheets/d/1ISjeCppXA4kP-l_6uHPLst7GecvXRak6vryS9UqY0Rw/edit?usp=sharing|lmCrop2pred]] com os resultados do modelo selecionado - Na planilha onde os dados foram gerados, calcule, a partir dos coeficientes estimados, os valores preditos pelo modelo para cada um dos tratamentos, coloque esses valores em uma coluna nomeada de ''predito'', veja como calcular os valores preditos no quadro [[cursos:planeco:roteiro:09-lm02#interpretando_variáveis_indicadoras_(dummy)|]] abaixo - Calcule os resíduos do modelo ((diferença entre observado e o predito pelo modelo)) em uma coluna denominada ''residuos'' - Eleve o valor dos resíduos ao quadrado em uma coluna denominada ''resQuad'' - Some o a coluna em ''resQuad'' para calcular a soma quadrática do modelo - Calcule o R² do modelo, baseado no ''resQuad'' ((O R² é a razão entre o ''resQuad'' sobre a soma quadrática total dos dados, definida como os desvio dos valores observado em relação à média dos valores elevado ao quadrado em seguida somados)) ==== Interpretando Variáveis Indicadoras (Dummy) ==== As variáveis indicadoras devem ser interpretadas com cuidado. No exemplo do modelo cheio acima ((aquele que inclui a interação entre ''solo'' e ''adubo'')), o modelo pode ser descrito da seguinte forma: $$ y_{tr} = \alpha + \beta_1 * arg + \beta_2 * hum + \beta_3 * adubo + \beta_4 * arg * adubo + \beta_5 * hum * adubo $$ As variáveis __arg__, __hum__ e __adubo__ são dummy ou indicadoras, representadas por 1 quando presente e 0 quando ausentes. $\alpha, \beta_i$ representam as estimativas do modelo e estão relacionados, nesse caso, ao efeito de cada tratamento. Para calcular o valor predito para o tratamento no solo arenoso com adubo, temos: $$ y_{arenAdubo} = \alpha + \beta_3 * adubo $$ Isso em decorrência do tratamento **arenoso sem adubo** estar representado pelo intercepto ($\alpha$) do modelo. Para o tratamento de solo **argiloso com adubo** o predito é: $$ y_{argAdubo} = \alpha + \beta_1 * arg + \beta_3 * adubo + \beta_4 * arg * adubo $$ E assim por diante, usando as variáveis indicadoras e os coeficientes estimados para o cálculo do predito pelo modelo. ===== Simplificando Modelos ===== {{youtube>5av4ffv89A0}} Durante o curso usaremos o procedimento de simplificar o modelo a partir do modelo cheio. O procedimento consiste em comparar modelos aninhados((o modelo mais simples está contido no mais complexo)), dois a dois, retendo o que está mais acoplado aos dados. Para comparar os modelos utilizaremos o procedimento da partição da variância baseado na tabela de anova. O modelo que explica mais variação dos dados é retido e quando os modelos não são diferentes no seu poder explicativo, retemos o modelo mais simples, apoiados no princípio da parcimônia. Para tomar a decisão se os modelos são iguais ou diferentes utilizamos a estatística F da tabela de anova. ==== Princípio da parcimônia (Navalha de Occam) ==== * número de parâmetros menor possível * linear é melhor que não-linear * reter menos pressupostos * simplificar ao mínimo adequado * explicações mais simples são preferíveis ==== Método do modelo cheio ao mínimo adequado ==== - ajuste o modelo máximo (cheio) - simplifique o modelo: * inspecione os coeficientes (summary) * remova termos não significativos ((um de cada vez)) - ordem de remoção de termos: * interações não significativas (primeiro as de maior ordem) * termos quadráticos ou não lineares * variáveis explicativas não significativas * agrupe níveis de fatores sem diferença * ANCOVA: intercepto não significativos -> 0 - verifique se a ordem de remoção não interfere na seleção do modelo * retorne ao modelo cheio * retire as variáveis que não foram retidas no outro procedimento em outra ordem * confirme que o modelo mínimo adequado é o mesmo ==== Tomada de decisão ==== ** A diferença não é significativa: ** * retenha o modelo mais simples * continue simplificando **A difereça é significativa: ** * retenha o modelo complexo * este é o modelo __MINÍMO ADEQUADO__ - Construa os modelos plausíveis com esses dados - Faça a comparação do modelo cheio, simplificando pela partição da variação - Retenha o modelo mínimo adequado para interpretar ==== O que preciso entregar ==== * 1. As estimativas dos modelos devem ter sido incluídas nas planilhas quando foram solicitados ao longo do roteiro * 2. Preencha as perguntas do quadro abaixo ou pelo [[https://forms.gle/6MsonSH8MYViodsFA|link do formulário]] {{url>https://forms.gle/6MsonSH8MYViodsFA}}