Ferramentas do usuário

Ferramentas do site


cursos:planeco:roteiro:09-lm02

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

cursos:planeco:roteiro:09-lm02 [2024/03/18 15:16]
127.0.0.1 edição externa
cursos:planeco:roteiro:09-lm02 [2024/03/25 13:51]
Linha 1: Linha 1:
-====== Modelos Lineares Múltiplos I ====== 
- 
-{{:​cursos:​planeco:​roteiro:​datamodel.jpg?​300|}} 
- 
- 
-Uma extensão do modelo linear simples ((modelo linear com apenas uma preditora)) são os modelos lineares com mais de uma preditora, aqui definido como modelos múltiplos. Quando temos mais de uma preditora o modelo aumenta em complexidade com mais parâmetros para estimar. Além disso, a estrutura mais complexa do modelo gera desafios para a interpretação e dificulta a avaliação da adequação do modelo aos dados. Uma primeira complexidade está relacionada a como simplificar a estrutura do modelo com a finalidade de facilitar a interpretação e melhorar a estimação dos parâmetros. A tomada de decisão sobre quais variáveis devemos reter em nosso modelo e quais podem ser retiradas, por não terem efeito na variável resposta, pode ser feita utilizando diferentes critérios e técnicas. A seguir apresentamos uma das técnicas utilizadas para essa tomada de decisão e que iremos utilizar ao longo desse curso. Outros critérios ou técnicas podem ser utilizadas com vantagens ou desvantagens em relação ao que utilizaremos. Não é objetivo desse curso se debruçar sobre essas diferentes técnicas. ​ 
- 
-<WRAP center round box 80%> 
-{{ youtube>​89hcuYp9oWo |}} 
-</​WRAP>​ 
- 
- 
-===== Duas preditoras categóricas ===== 
- 
-O primeiro exemplo que iremos trabalhar é baseado nos dados utilizados para exemplificar o [[cursos:​planeco:​roteiro:​07b-anovarcmdr#​particao_da_variancia|teste de Anova]]. Vamos criar um experimento plausível a partir dele. 
- 
- 
-======= Simulando um experimento plausível ======= 
- 
-Vimos que existe um efeito do tipo de solo na produção de um cultivar. Uma expectativa plausível é que a adição de adubo também tenha efeito na produtividade. Ou seja, os tipos de solo tem produtividade diferente, assim como o adubo aumenta a produtividade. 
- 
-Nos dados originais do exercício de ANOVA a produtividade média nos solos foi de: 
- 
-  * arenoso: ​  9.9 
-  * argiloso: 11.5 
-  * humico: ​  14.3 
- 
-  ​ 
-Vamos, a partir dessa informação,​ criar um experimento onde, além da diferença do solo, metade dos cultivos foram tratados com adubo orgânico. 
- 
-  * 1. Abra o arquivo {{ :​cursos:​planeco:​roteiro:​cropMult.xlsx |cropMulti}} em uma planilha eletrônica:​ 
- 
-<WRAP center round box 80%> 
- 
-{{ :​cursos:​planeco:​roteiro:​cropMult01.jpg?​500 |}} 
-</​WRAP>​ 
-  
-  *2. Preencha a coluna ''​efeitoAdubo''​ com o valor de  ''​1.2''​ para todas as parcelas ​ adubadas ((coluna ''​adubo''​ igual a ''​sim''​)) e ''​0''​ para aquelas que não foram ((coluna ''​adubo''​ igual a  ''​não''​ )). 
-  *3. Preencha a célula ** E2** da coluna ''​desvios normal''​ com a fórmula //** = INV.NORM.N(ALEATÓRIO();​ 0 ; 1.5)**//​((Essa expressão retorna valores associados a uma distribuição normal com média 0 e desvio padrão 1.5. Para libreoffice use ''​ = NORM.INV(RAND(),​ 0, 1.5)''​)). 
-  *4. Some os valores em uma mesma linha  
- 
-Ao final sua planilha deve estar preenchida como a que segue, apenas com os valores da coluna resíduo diferentes: 
- 
-<WRAP center round box 80%> 
- 
-{{ :​cursos:​planeco:​roteiro:​adubo02.png?​500 |}} 
- 
-</​WRAP>​ 
-  
-<WRAP center round todo 80%> 
-__**Procedimentos**__ 
- 
-  *  Salve a planilha com o nome ''​soloAduboAditivo.csv''​ em formato texto com campos separados por vírgula; 
-  *  Abra os dados no Rcmdr; 
-  *  Produza um modelo chamado ''​mlSolo_Adubo_Aditivo''​ da seguinte forma: 
-    ''​prodCampo ~ solo + adubo'';​ 
-  * Avalie o modelo pelo seu sumário e pela tabela de Anova; 
-  * Faça uma interpretação biológica do resultado do modelo. 
- 
-</​WRAP>​ 
- 
- 
-=====  Modelos Plausíves ===== 
- 
- 
- 
-O nosso modelo tem duas preditoras e pode ser simplificado. Nesse caso, como temos poucas possibilidades de comparação,​ podemos comparar os modelos plausíveis,​ desde que sejam aninhados. O que produzimos acima tem o efeito de solo e de adubo, podemos pensar em mais algumas possibilidades de modelo: 
- 
-  * **__mlSolo__** só com o efeito do solo: 
- 
-''​prodCampo ~ solo''​ 
- 
-  * **__mlAdubo__** só com efeito do adubo: 
-  
-''​prodCampo ~ adubo''​ 
- 
-  * **__mlNull__** sem efeito de solo ou adubo: 
- 
-''​prodCampo ~ 1''​ 
- 
-O valor ''​1''​ na última formula indica que o modelo não tem nenhuma variável preditora ((o valor 1  indica que a resposta é predita apenas pela sua própria média)) 
- 
-/* 
-Antes de construir modelos alternativos e compará-los,​ vamos complicar um pouco os nosso dados simulados incluindo algo que é a interação entre as variáveis preditoras. ​ 
- 
-*/  
- 
- 
-==== Interação entre preditoras ==== 
- 
-<WRAP center round box 80%> 
-{{ youtube>​Mx9skekN6e8 |}} 
- 
-</​WRAP>​ 
- 
-Nos modelos acima, desconsideramos um elemento importante que emerge quanto temos mais de uma preditora, a possibilidade de uma variável preditora interferir no efeito de outra, efeito esse chamado de interação. 
-A interação é um elemento muito importante quando temos mais de uma preditora, pois desconsiderá-la pode limitar o entendimento dos processos envolvidos. Um exemplo cotidiano da interação é visto no uso de medicamentos e o alerta da bula sobre interação medicamentosa ou efeitos colaterais para pessoas portadoras de doenças crônicas. Dizemos que um medicamento tem interação com outra substância quando o seu efeito é modificado pela presença de outra substância,​ como por exemplo a ingestão de álcool junto com muitos medicamentos. Nos modelos a interação tem uma interpretação similar, a resposta pelo efeito de uma variável preditora se altera com a presença de outra preditora. Muitas vezes a interação pode ser o efeito de interesse do estudo, como na pergunta: //O efeito de solo na produtividade agrícola ​ depende da quantidade de adubo orgânico adicionado?//​ Ou em outras palavras: //O efeito da adubação orgânica depende do tipo de solo?// ​ Note que nestas perguntas o foco não é se há ou não efeito do adubo ou solo, mas se a presença de uma variável afeta o efeito de outra.  ​ 
- 
- 
-<WRAP center round todo 80%> 
- 
-  * No conjunto de modelos acima, não incluímos o termo da interação. Produza o modelo abaixo incluindo o termo da interação e avalie esse modelo e seus coeficientes. 
-  
-    ''​prodCampo ~ solo + adubo + solo:​adubo''​ 
-  
- 
-</​WRAP>​ 
- 
- 
-Não é esperado encontrar interação entre as preditoras nos dados simulados da maneira como fizemos, ele pode emergir por acaso, apenas porque temos uma variável aleatória ((se o termo da interação foi significativo,​ confira os cálculos e mantenha o resultado como está, esse resultado emerge com baixa frequência,​ simplesmente por acaso. )). Da maneira como simulamos os dados temos duas preditoras que tem efeitos ​ aditivos onde não há interação. Uma outra forma de dizer isso é que o efeito do ''​adubo''​ não interfere no efeito do ''​solo'',​ ou que esses efeitos são independentes. A interpretação biológica nesse caso também pode ser feita independentemente. ​ 
- 
- 
- 
- 
-======= Simulando dados com interação ======= 
- 
-Seguindo a mesma abordagem anterior, vamos produzir dados simulando a interação entre as variáveis ''​solo''​ e ''​adubo''​. Para isso precisamos produzir dados em que o efeito do adubo depende do tipo de solo. 
- 
- 
-  - Abra o arquivo {{ :​cursos:​planeco:​roteiro:​cropMult.xlsx |cropMulti}} em uma planilha eletrônica:​ 
- 
-<WRAP center round box 80%> 
- 
-{{ :​cursos:​planeco:​roteiro:​cropMult01.jpg?​500 |  }} 
-</​WRAP>​ 
-  
-  - Preencha a coluna ''​efeitoAdubo''​ com os valores: 
-    * 2.7 para ''​arenoso''​ com ''​adubo''​ igual a ''​sim'' ​ 
-    * 0.7 para ''​argiloso''​ com ''​adubo''​ igual a ''​sim'' ​ 
-    * 0.2 para ''​humico''​ com ''​adubo''​ igual a ''​sim'' ​ 
-  - O campos da coluna ''​efeitoAdubo''​ onde ''​adubo''​ é igual a ''​não''​ devem ser preenchidos com ''​0'' ​ 
-  - Preencha a célula ** E2** da coluna ''​desvios normal''​ com a fórmula //** = INV.NORM.N(ALEATÓRIO();​ 0 ; 1.5)**//​((Essa expressão retorna valores associados a uma distribuição normal com média 0 e desvio padrão 1.5. Para versões antigas do libreoffice a função pode ser ''​ = NORM.INV(RAND(),​ 0, 1.5)''​)),​ as atuais utilizam a mesma que o excel. 
-  - Some na coluna ''​prodCampo''​ os valores ''​prodSolo + efeitoAdubo + desviosNormal'' ​ 
- 
-Ao final sua planilha deve estar preenchida como a que segue, apenas com os valores da coluna resíduo diferentes: 
- 
-<WRAP center round box 80%> 
- 
-{{ :​cursos:​planeco:​roteiro:​cropMult02.jpg?​500 |}} 
-</​WRAP>​ 
-  
-<WRAP center round tip 80%> 
-__**Procedimentos**__ 
- 
-  - Salve a planilha com o nome ''​soloAduboInteracao.csv'';​ 
-  - Importe os dados para o Rcmdr. **Atenção nomeie os dados na aba de importação com o nome ''​soloAduboInt'',​ em alguns casos o Rcmdr não importa se a planilha e os dados importados tiverem o mesmo nome de uma importação anterior** 
-  - Confira se os dados foram lidos corretamente,​ inclusive se a decimal é ''​.'';​ 
-  - Produza o modelo cheio ''​mlSolo_AduboAll''​ com a seguinte formula: 
-     * ''​prodCampo ~ solo + adubo + solo:​adubo''​ 
-     * interprete o resumo, comparando com o resumo do modelo similar proveniente da planilha de dados anterior 
- 
-</​WRAP>​ 
- 
- 
-===== Simplificando Modelos ===== 
- 
-<WRAP center round box 80%> 
-{{ youtube>​5av4ffv89A0 |}} 
- 
-</​WRAP>​ 
- 
-Durante o curso usaremos o procedimento de simplificar o modelo a partir do modelo cheio. 
-O procedimento consiste em comparar modelos aninhados((o modelo mais simples está contido no mais complexo)), dois a dois, retendo o que está mais acoplado aos dados. Para comparar os modelos utilizaremos o procedimento da partição da variância baseado na tabela de anova. Quando os modelo comparados são diferentes retemos o mais complexo, pois explica mais variação dos dados ((Este é um atributo associado aos modelos aninhados: aquele que tem mais variáveis ou parâmetros só pode explicar mais ou a mesma quantidade de variação do mais simples, já que todos os parâmetros do modelo mais simples estão contidos no mais complexo)). Por outro lado, quando os modelos não são diferentes no seu poder explicativo,​ retemos o modelo mais simples, apoiados no princípio da parcimônia. Para tomar a decisão se os modelos são iguais ou diferentes utilizamos a estatística ''​F''​ da tabela de anova. ​ 
- 
- 
-<WRAP center round box 80%> 
- 
-==== Princípio da parcimônia (Navalha de Occam) ==== 
- 
-  * número de parâmetros menor possível 
-  * linear é melhor que não-linear 
-  * reter menos pressupostos 
-  * simplificar ao mínimo adequado 
-  * explicações mais simples são preferíveis 
- 
-</​WRAP>​ 
- 
-<WRAP center round box 80%> 
- 
-==== Método do modelo cheio ao mínimo adequado ==== 
- 
-  - ajuste o modelo máximo (cheio) 
-  - simplifique o modelo: 
-    * inspecione os coeficientes (summary) 
-    *  remova termos não significativos ((um de cada vez)) 
-  - ordem de remoção de termos: ​ 
-    * interações não significativas (primeiro as de maior ordem) 
-    * termos quadráticos ou não lineares 
-    * variáveis explicativas não significativas 
-  - caso faça sentido, agrupe níveis de fatores sem diferença 
-  - verifique se a ordem de remoção não interfere na seleção do modelo 
-    * retorne ao modelo cheio 
-    * retire as variáveis que não foram retidas no outro procedimento em outra ordem 
-    * confirme que o modelo mínimo adequado é o mesmo  
-  - Faça o diagnóstico do modelo mínimo adequado 
-  - Interprete o modelo selecionado ​ 
-    ​ 
- 
-</​WRAP>​ 
- 
- 
-<WRAP center round box 80%> 
- 
-==== Tomada de decisão ​ ==== 
-<WRAP center round tip 80%> 
-** A diferença não é significativa:​ ** 
-    * retenha o modelo mais simples 
-    * continue simplificando 
- 
-</​WRAP>​ 
- 
-<WRAP center round tip 80%> 
- 
-**A difereça é significativa:​ ** 
-    * retenha o modelo complexo 
-    * verifique se existe termo que pode e ainda não foi retirado ​ 
-    * caso não haja nenhum termo que possa ser retirado, este é o modelo __MINÍMO ADEQUADO__ 
- 
-</​WRAP>​ 
- 
-</​WRAP>​ 
- 
- 
- 
- 
- 
- 
- 
- 
-<WRAP center round box 80%> 
- 
-==== Interpretando Variáveis Indicadoras (Dummy) ==== 
- 
- 
-As variáveis indicadoras devem ser interpretadas com cuidado. No exemplo do modelo cheio acima ((aquele que inclui a interação entre ''​solo''​ e ''​adubo''​)),​ o modelo pode ser descrito da seguinte forma: 
- 
- 
-$$ y_{tr} =  \alpha + \beta_1 * arg + \beta_2 * hum + \beta_3 * adubo + \beta_4 * arg * adubo + \beta_5 * hum * adubo $$ 
- 
- 
-As variáveis __arg__, __hum__ e __adubo__ são dummy ou indicadoras,​ representadas por 1 quando presente e 0 quando ausentes. $\alpha, \beta_i$ representam as estimativas do modelo e estão relacionados,​ nesse caso, ao efeito de cada tratamento. 
- 
- 
-Para calcular o valor predito para o tratamento no solo arenoso com adubo, temos: 
- 
-$$ y_{arenAdubo} =  \alpha + \beta_3 * adubo $$ 
- 
-Isso em decorrência do tratamento **arenoso sem adubo** estar representado pelo intercepto ($\alpha$) do modelo. 
- 
- 
-Para o tratamento de solo **argiloso com adubo** o predito é: 
- 
-$$ y_{argAdubo} =  \alpha + \beta_1 * arg + \beta_3 * adubo + \beta_4 * arg * adubo $$ 
- 
-E assim por diante, usando as variáveis indicadoras e os coeficientes estimados para o cálculo do predito pelo modelo. 
- 
-  
-</​WRAP>​ 
- 
- 
- 
- 
-<WRAP center round todo 80%> 
-**__Procedimento__** 
- 
-  - Faça a seleção do modelo mínimo adequado para o conjunto de dados da última planilha, partindo do modelo com a interação,​ simplificando até o modelo mínimo adequado. Utilize o procedimentos de comparação de modelo pela partição de variância; 
-  - Avalie o modelo selecionado pelo sumário e pela tabela de Anova. Reconheça os valores utilizados para gerar os dados a partir das estimativas do modelo. 
-  - Preencha a aba  ''​cropIntera''​ da planilha [[https://​docs.google.com/​spreadsheets/​d/​1ISjeCppXA4kP-l_6uHPLst7GecvXRak6vryS9UqY0Rw/​edit?​usp=sharing|lmCrop2pred]] com os resultados do modelo selecionado 
-  - Na planilha onde os dados foram gerados, calcule, a partir dos coeficientes estimados, os valores preditos pelo modelo para cada uma das observações,​ coloque esses valores em uma coluna nomeada de ''​predito''​. Veja como calcular os valores preditos no quadro [[cursos:​planeco:​roteiro:​09-lm02#​interpretando_variáveis_indicadoras_(dummy)|]] 
-  - Calcule os resíduos do modelo ((diferença entre observado e o predito pelo modelo)) em uma coluna denominada ''​residuos''​ 
-  - Eleve o valor dos resíduos ao quadrado em uma coluna denominada ''​resQuad''​. A  soma destes valores representa a variabilidade não explicada pelo modelo 
-  - Calcule a média da variável resposta e calcule a diferença deste valor para todas as observações e eleve ao quadrado e armazene em uma coluna ''​desvQuadTotal'',​ a soma destes valores representa a variabilidade total dos dados 
-  - Calcule o R² do modelo, baseado no ''​resQuad''​ e no ''​desvQuadTotal''​ ((O R² é a razão entre  (''​desQuadTotal''​ - ''​resQuad''​) ​ sobre a ''​desvQuadTotal''​. Ou seja, quanto da variação dos dados é explicada pelo modelo em relação ao total de variação dos dados)) 
- 
-</​WRAP>​ 
- 
-===== Modelos Lineares Múltiplos: preditoras contínuas e categóricas ===== 
- 
-{{:​cursos:​planeco:​roteiro:​plotBabies01.png?​300 ​ |}} 
- 
-\\ 
-\\ 
-\\ 
-\\ 
-Nesse último tópico do bloco vamos resgatar os principais conceitos que emergiram com a generalização do modelo linear, agora com múltiplas preditoras, a partir de um exemplo que tem duas variáveis preditoras contínuas e duas categórica. Acreditamos que esse exemplo incorpora as complexidades tratadas e ajuda a agrupar os tópicos que devem ficar atentos nos modelos com múltiplas preditoras. ​     
-\\ 
-\\ 
-\\  
-\\ 
-\\ 
-\\ 
-\\ 
- 
-<WRAP center round box 60%> 
- 
-==== Desafios dos modelos com múltiplas preditoras ==== 
- 
- 
-Ao final desta seção é desejável que tenha compreendido nos modelos lineares múltiplos: 
- 
-  * compreender a partição da variância do modelo; 
-  * interpretar a ''​tabela de anova''​ na comparação de dois modelos; 
-  * entender o procedimento da ''​anova''​ para simplificação do modelo; 
-  * saber interpretar os gráficos diagnósticos do modelo; 
-  * avaliar a colinearidade entre variáveis no modelo; 
-  * interpretar os coeficientes estimados; 
-  * entender quais níveis estão representados no intercepto do modelo; 
-  * compreender os termos de interação;​ 
-  * compor o predito pelo modelo a partir dos coeficientes;​ 
-  * interpretar biologicamente o resultado do modelo. 
- 
- 
-</​WRAP>​ 
-\\ 
-\\ 
- 
-==== VIF e as interações ==== 
- 
-No //Rcmdr// o  ''​VIF''​ é aplicado ao modelo ativo pelo menu ''​Models > Numerical diagnostics > Variance-inflation factors''​),​ calculando o valor para todos os termos do modelo, inclusive as interações. Como interações e as variáveis isoladas compartilham parte da variação explicada, a correlação entre eles é esperada. ​ Ou seja, não é possível fazer a avaliação do VIF das variáveis em modelos com interação diretamente. Uma soluçao é fazer modelos sem as interações como fizemos anteriormente. ​ 
-Uma outra forma de contornar esse problema é fazer uma transformação simples nas variáveis contínuas, centralizando a média em ''​zero'',​ subtraindo o valor observado da média( $x_i - \bar{x}$ ).  
- 
-Com essa transformação o valor ''​0''​ passa a representar a média e os valores positivos o aumento em relação a média e negativos a diminuição,​ na mesma unidade de escala da variável original. ​ 
-A **centralização** das variáveis contínuas é uma transformação corriqueira pois não dificulta a interpretação e ao contrário, evita muitos problemas analíticos e de interpretação. Entre as vantagens da centralização está a possibilidade de interpretar o ''​VIF''​ diretamente no modelo selecionado e incorporar uma interpretação biológica para o valor do intercepto, onde muitas vezes não existia.  ​ 
- 
-\\ 
-\\ 
-\\ 
- 
-==== Peso de bebês ao nascer ==== 
- 
-{{:​cursos:​planeco:​roteiro:​cegonha final_133910457_dreamstime.jpg?​nolink&​250 |}} 
-O objetivo dessa pesquisa foi saber quais fatores afetam o tamanho de bebês ao nascer, de modo que fosse possível orientar campanhas de conscientização para evitar o nascimento de bebês com baixo peso, uma vez que isso pode implicar em maiores custos e muitos riscos ao bebê devido à permanência no hospital. Três variáveis preditoras (explicadas abaixo) foram consideradas relevantes para essa pesquisa, mas também havia um interesse genuíno em saber se alguma das variáveis poderia interferir no efeito das outras. Como a variável resposta, peso do bebê ao nascer, foi medida em ''​onças''​ vamos primeiro transformar em uma escala de medida que temos mais facilidade para  interpretar,​ multiplando essa variável por ''​0.02835''​ para transformar em ''​kg''​. 
- 
- 
- 
-<WRAP center round box 80%> 
- 
-  * Abra o arquivo {{ :​planeco:​roteiro:​babies.csv |}} no Rcmdr, usando __tabulação(Tabs)__ como separador de campo 
-  * Garanta que os dados foram lidos corretamente>​ 
-  * Abra a janela para criar uma nova variável no menu ''​Data > Manage variables in active data set > Compute a new variable'';​ 
-  * Na caixa ''​New variable name''​ nomei a nova variável como ''​pesoKg'';​ 
-  * Na caixa ''​Expression to compute''​ coloque a expressão: ''​bwt * 0.02835'';​ 
-  * Ajuste um modelo contendo __apenas as variáveis indicadas abaixo__ e todas as interações entre elas: 
-  * variável resposta: ​ ''​pesoKg''​ = peso do bebê (medido em ''​kg''​) ​ 
-  * preditoras: 
-            * ''​gestation''​ = tempo de gestação (dias) 
-            * ''​age''​ = idade da mãe 
-            * ''​smoke'':​ ''​FALSE''​ mãe não fumante; ''​TRUE''​ mãe fumante 
- 
-  *  Selecione o modelo mínimo plausível pelo método de simplificação para mínimo adequado (ver roteiro I de MLM) 
- 
-  * Calcule o VIF do modelo selecionado pelo menu ''​Models > Numerical diagnostics > Variantion Inflation Factor''​ 
-  * Guarde o resultado dos VIF destes modelos; 
-  * Crie uma nova variável pelo menu : ''​Data > Manage variable in active data set > Computer new variable'';​ 
-  * Na janela que se abre coloque em ''​New variabel name''​ o nome ''​ageCenter''​ e em ''​Expression to compute'' ​  ​inclua a expressão ''​age - mean(age)'';​ 
-<WRAP center round box 60%> 
-{{:​cursos:​planeco:​roteiro:​centerAgeBabies.png?​400|}} 
-</​WRAP>​ 
-  *  Faça o mesmo para uma nova variável com o nome ''​gestationCenter''​ usando a expressão ''​ gestation - mean(gestatation)'';​ 
-  * Construa o modelo selecionado utilizando estas novas variáveis contínuas centralizadas em substituição às originais; 
-  * Refaça o calculos dos VIFs para esse novo modelo com as variáveis selecionadas. Guarde o resultado. 
-  * Para o modelo final selecionado,​ com as variáveis preditoras contínuas centralizadas:​ 
-    * avalie os gráficos diagnósticos; ​ 
-    * faça a avaliação da colinearidade entre os termos do modelo; 
-    * identifique qual(is) nível(is) está(ão) representado(s) no intercepto; 
-    * interprete cada um dos parâmetros do modelo, incluindo interações,​ se houver; 
-  * A partir dos resultados do modelo proponha uma campanha para evitar que bebês nasçam com baixo peso. 
- 
- 
-</​WRAP>​ 
-\\ 
- 
-<WRAP center round tip 60%> 
-Retorne à [[cursos:​planeco:​roteiro:​09-lm02b#​desafios_dos_modelos_com_multiplas_preditoras|lista de desafios dos modelos com múltiplas preditoras]] do início desta seção e avalie se todos os pontos foram compreendidos. ​ 
-</​WRAP>​ 
- 
- 
- 
- 
-===== Exercício===== 
- 
-<WRAP center round help 90%> 
- 
-Responda o  [[https://​forms.gle/​qZg13LsMEG2xHRAe6|o formulário MLM III]] incluindo arquivos de resultados e figuras quando solicitado. ​ 
- 
- 
-{{url>​https://​forms.gle/​qZg13LsMEG2xHRAe6}} 
- 
-</​WRAP>​ 
- 
- 
- 
-/* 
-- subir um arquivo com os resumos de alguns modelos, incluindo o modelo final selecionado e os gráficos diagnósticos referentes aos dados babies.csv, interpretar o modelo final e responder as perguntas propostas. 
- 
-- subir um arquivo com os resultados referentes às análises de colinearidade (por meio dos VIFs) para os dados birds_clim.csv e responder as perguntas propostas 
- 
-- subir um arquivo com a seleção de modelos dos dados de birds.csv, a partir do modelo completo com as variáveis que permaneceram após a remoção daquelas com altos VIFs. Porém, para esse exercício, caso tenham permanecido três ou mais variáveis, faça o modelo completo contendo as variáveis que permaneceram,​ mas **apenas as __interações duplas__**((ou seja, não precisa incluir as  interações triplas, quádruplas ou quíntuplas)) entre elas. Esse arquivo deve ter os resumos dos modelos e as comparações entre modelos até chegar ao modelo final selecionado. Para o modelo final, apresente também os gráficos diagnósticos. ​ 
- 
-- interpretar o modelo final selecionado. 
- 
- 
- 
- 
-ATIVIDADES ANTIGAS QUE FORAM EXCLUÍDAS OU MODIFICADAS EM 2020: 
- 
- 
-<WRAP center round box 80%> 
-  * abra o arquivo {{ :​planeco:​roteiro:​babies.csv |}} no R ou Rcmdr 
-  * faça um modelo plausível com as variáveis: 
-    * resposta **bwt** : peso do bebê ao nascer 
-    * preditoras: 
-        * gestation: tempo de gestação (dias) 
-        * age: idade 
-        * weight: peso 
-        * smoke: 0 não fumante; 1 fumante 
-        * interações:​ até a 3 ordem para aquelas que são plausíveis e passíveis de interpretação biológica 
-    * selecione o modelo mínimo plausível pelo método de simplificação para mínimo adequado ​ 
-    * interprete o resultado 
-</​WRAP>​ 
- 
- 
-<WRAP center round box 80%> 
-  - abra o arquivo {{ :​planeco:​roteiro:​davis.csv |}} no R ou no Rcmdr 
-  - monte o modelo para peso com relação às variáveis preditoras: altura, sexo e suas interações. 
-  - a partir ​ do modelo mais cheio, simplifique o modelo até o mínimo adequado 
-  - apresente o resultado em um gráfico 
- 
-</​WRAP>​ 
- 
- 
- 
-===== Exercício Extra ===== 
- 
-Um artigo recente (Fisher, R. & Ai C. 2018)((note que temos dois homônimos aqui, o mais famoso estatístico e um critério de seleção de modelos juntos, como autores!! Os outros nomes foram omitidos propositadamente.)) sobre métodos de regressões múltiplas, apresenta dados sobre peixes de recifes de corais. Entre as questões apresentadas pelos autores originais do trabalho estava se a biomassa de diferentes guildas de peixes em zonas protegidas ou não de recifes. Aqui vamos usar apenas a guilda de peixes que se alimentam de plânctons e apenas parte das preditoras. O método desenvolvido no artigo é uma forma de automatizar a seleção de preditoras em modelos com muitas variáveis potenciais de influenciar a resposta. 
- 
-  * faça uma análise exploratória das variáveis do dados {{ :​cursos:​planeco:​roteiro:​plankivore.csv |}} e suas relações;  ​ 
-  * monte o modelo mínimo adequado, partindo de todas as variáveis preditoras e suas interações;​ 
-  * verifique se não há nenhuma variável com relação não linear com a biomassa, e se houver use mais uma variável representada pelo quadrado dessa variável; 
-  * ao final faça o diagnóstico do modelo e veja se o resíduo cumprem com as premissas do modelo linear; 
-  * caso diagnostique problema no modelo, transforme a variável resposta usando o logaritmo natural; 
-  * refaça a seleção e o diagnóstico com a resposta na escala log; 
-  * interprete o resultado. 
-  
- 
-{{ :​cursos:​planeco:​roteiro:​Fisher_et_al-2018-Ecology_and_Evolution.pdf | Fisher, R.; Ai C. L. et al. 2018. A simple function for full-­subsets multiple regression in ecology with R. Ecology and Evolution 8: 6104-6113}} 
- 
- 
- 
-=== Gerando dados com colinearidade === 
- 
-Gerar dados com colinearidade. 
- 
-*/ 
- 
- 
- 
-==== O que preciso entregar ==== 
- 
- 
-<WRAP center round help 100%> 
-  
-  * 1. As estimativas dos modelos devem ter sido incluídas nas planilhas quando foram solicitados ao longo do roteiro ​ 
-  * 2. Preencha as perguntas do quadro abaixo ou pelo [[https://​forms.gle/​LvN2j8iE7JWpeEBr9|link do formulário]] 
- 
- 
-</​WRAP>​ 
- 
-{{url>​https://​forms.gle/​LvN2j8iE7JWpeEBr9}} 
  
cursos/planeco/roteiro/09-lm02.txt · Última modificação: 2024/03/25 13:51 (edição externa)