Modelos Lineares Múltiplos
Simplificando Modelos
Durante o curso usaremos o procedimento de simplificar o modelo a partir do modelo cheio. O procedimento consiste em comparar modelos aninhados, dois a dois, retendo o que está mais acoplado aos dados. Caso os modelos não sejam diferentes no seu poder explicativo, retemos o modelo mais simples, apoiados no princípio da parcimônia.
Princípio da parcimônia (Navalha de Occam)
- número de parâmetros menor possível
- linear é melhor que não-linear
- reter menos pressupostos
- simplificar ao mínimo adequado
- explicações mais simples são preferíveis
Método do modelo cheio ao mínimo adequado
- ajuste o modelo máximo (cheio)
- simplifique o modelo:
- inspecione os coeficientes (summary)
- remova termos não significativos
- ordem de remoção de termos:
- interações não significativas (primeiro as de maior ordem)
- termos quadráticos ou não lineares
- variáveis explicativas não significativas
- agrupe níveis de fatores sem diferença
- ANCOVA: intercepto não significativos → 0
Tomada de decisão
A diferença não é significativa:
- retenha o modelo mais simples
- continue simplificando
A difereça é significativa:
- retenha o modelo complexo
- este é o modelo MINÍMO ADEQUADO
Interação entre preditoras
A interação é um elemento muito importante quando temos mais de uma preditora, pois desconsiderá-la pode limitar o entendimento dos processos envolvidos. Um exemplo cotidiano da interação é visto no uso de medicamentos e o alerta da bula sobre interação medicamentosa ou efeitos colaterais para pessoas portadoras de doenças crônicas. Dizemos que um medicamento tem interação com outra substância quando o seu efeito é modificado pela presença de outra substância, como por exemplo a ingestão de álcool junto com muitos medicamentos. Nos modelos, a interação tem uma interpretação similar, a resposta pelo efeito de uma variável preditora se altera com a presença de outra preditora.
Simulando um experimento plausível
Vimos que existe um efeito do tipo de solo na produção de um cultivar no exemplo de ANOVA. Uma expectativa plausível é que a adição de adubo também tenha efeito na produtividade e modifique o efeito do solo. Esse é nosso próximo exemplo. Para ele vamos usar uma simulação de dados similar ao que fizemos no modelo linear simples.
Nos dados originais do exercício de ANOVA a produtividade média nos solos foi de:
- arenoso: 9.9
- argiloso: 11.5
- humico: 14.3
Vamos, a partir dessa informação, criar um experimento onde, além da diferença do solo, metade dos cultivos foram tratados com adubo orgânico.
- 1. Abra a planilha colheita, no excel:
- 2. Preencha as médias de produtividade no tratamento com adubo com o seguintes valores:
- arenoso: + 2.7
- argiloso: + 0.7
- humico: + 0.2
- 3. Preencha a célula D2 da coluna resíduo com a fórmula = INV.NORM.N(ALEATÓRIO(); 0 ; 1)1);
Ao final sua planilha deve estar preenchida como a que segue, apenas com os valores da coluna resíduo diferentes:
ATIVIDADE
- 1. Abra a planilha preenchida no Rcmdr
- 2. Monte o modelos linear com as preditoras e sua interação (solo, adubo e solo:adubo) para a resposta prodCampo
- 3. Interprete os valores dos coeficientes do modelo (summary) e calcule, a partir deles, os valores preditos pelo modelo para cada um dos tratamentos
- 4. Compare os preditos com relação aos valores utilizados para gerar os dados de prodCampo
- 5. Preencha a planilha google com os resultados do modelo
Interpretando Variáveis Indicadoras (Dummy)
As variáveis indicadoras devem ser interpretadas com cuidado. No exemplo acima, o modelo pode ser descrito da seguinte forma:
$$ y_{tr} = \alpha + \beta_1 * arg + \beta_2 * hum + \beta_3 * adubo + \beta_4 * arg * adubo + \beta_5 * hum * adubo $$
As variáveis arg, hum e adubo são dummy ou indicadoras, representadas por 1 quando presente e 0 quando ausentes. $\alpha, \beta_i$ representam as estimativas do modelo e estão relacionados, nesse caso, ao efeito de cada tratamento.
Para calcular o valor predito para o tratamento no solo arenoso com adubo, temos:
$$ y_{arenAdubo} = \alpha + \beta_3 * adubo $$
Isso em decorrência do tratamento arenoso sem adubo estar representado pelo intercepto ($\alpha$) do modelo.
Para o tratamento de solo argiloso com adubo o predito é:
$$ y_{argAdubo} = \alpha + \beta_1 * arg + \beta_3 * adubo + \beta_4 * arg * adubo $$
E assim por diante, usando as variáveis indicadoras e os coeficientes estimados para o cálculo do predito pelo modelo.
Interação entre preditoras: contínua e categórica
- abra o arquivo davis.csv no R ou no Rcmdr
- monte o modelo para peso com relação às variáveis preditoras: altura, sexo e suas interação.
- a partir do modelo mais cheio, simplifique o modelo até o mínimo adequado
- apresente o resultado em um gráfico
Peso de bebês ao nascer
- abra o arquivo babies.csv no R ou Rcmdr
- faça um modelo plausível com as variáveis:
- resposta bwt : peso do bebê ao nascer
- preditoras:
- gestation: tempo de gestação (dias)
- age: idade
- weight: peso
- smoke: 0 não fumante; 1 fumante
- interações: até a 3 ordem para aquelas que são plausíveis e passíveis de interpretação biológica
- selecione o modelo mínimo plausível pelo método de simplificação para mínimo adequado
- interprete o resultado
Exercício Extra
Um artigo recente (Fisher, R. & Ai C. 2018)2) sobre métodos de regressões múltiplas, apresenta dados sobre peixes de recifes de corais. Entre as questões apresentadas pelos autores originais do trabalho estava se a biomassa de diferentes guildas de peixes em zonas protegidas ou não de recifes. Aqui vamos usar apenas a guilda de peixes que se alimentam de plânctons e apenas parte das preditoras. O método desenvolvido no artigo é uma forma de automatizar a seleção de preditoras em modelos com muitas variáveis potenciais de influenciar a resposta.
- faça uma análise exploratória das variáveis do dados plankivore.csv e suas relações;
- monte o modelo mínimo adequado, partindo de todas as variáveis preditoras e suas interações;
- verifique se não há nenhuma variável com relação não linear com a biomassa, e se houver use mais uma variável representada pelo quadrado dessa variável;
- ao final faça o diagnóstico do modelo e veja se o resíduo cumprem com as premissas do modelo linear;
- caso diagnostique problema no modelo, transforme a variável resposta usando o logaritmo natural;
- refaça a seleção e o diagnóstico com a resposta na escala log;
- interprete o resultado.

