Tabela de conteúdos

Modelos Lineares Múltiplos

Modelos Lineares Múltiplos

Simplificando Modelos

Durante o curso usaremos o procedimento de simplificar o modelo a partir do modelo cheio. O procedimento consiste em comparar modelos aninhados, dois a dois, retendo o que está mais acoplado aos dados. Caso os modelos não sejam diferentes no seu poder explicativo, retemos o modelo mais simples, apoiados no princípio da parcimônia.

Princípio da parcimônia (Navalha de Occam)

número de parâmetros menor possível
linear é melhor que não-linear
reter menos pressupostos
simplificar ao mínimo adequado
explicações mais simples são preferíveis

Método do modelo cheio ao mínimo adequado

ajuste o modelo máximo (cheio)
simplifique o modelo:
- inspecione os coeficientes (summary)
- remova termos não significativos
ordem de remoção de termos:
- interações não significativas (primeiro as de maior ordem)
- termos quadráticos ou não lineares
- variáveis explicativas não significativas
- agrupe níveis de fatores sem diferença
- ANCOVA: intercepto não significativos → 0

Tomada de decisão

A diferença não é significativa:

retenha o modelo mais simples
continue simplificando

A difereça é significativa:

retenha o modelo complexo
este é o modelo MINÍMO ADEQUADO

Interação entre preditoras

A interação é um elemento muito importante quando temos mais de uma preditora, pois desconsiderá-la pode limitar o entendimento dos processos envolvidos. Um exemplo cotidiano da interação é visto no uso de medicamentos e o alerta da bula sobre interação medicamentosa ou efeitos colaterais para pessoas portadoras de doenças crônicas. Dizemos que um medicamento tem interação com outra substância quando o seu efeito é modificado pela presença de outra substância, como por exemplo a ingestão de álcool junto com muitos medicamentos. Nos modelos, a interação tem uma interpretação similar, a resposta pelo efeito de uma variável preditora se altera com a presença de outra preditora.

Simulando um experimento plausível

Vimos que existe um efeito do tipo de solo na produção de um cultivar no exemplo de ANOVA. Uma expectativa plausível é que a adição de adubo também tenha efeito na produtividade e modifique o efeito do solo. Esse é nosso próximo exemplo. Para ele vamos usar uma simulação de dados similar ao que fizemos no modelo linear simples.

Nos dados originais do exercício de ANOVA a produtividade média nos solos foi de:

arenoso: 9.9
argiloso: 11.5
humico: 14.3

Vamos, a partir dessa informação, criar um experimento onde, além da diferença do solo, metade dos cultivos foram tratados com adubo orgânico.

1. Abra a planilha colheita, no excel:

2. Preencha as médias de produtividade no tratamento com adubo com o seguintes valores:
- arenoso: + 2.7
- argiloso: + 0.7
- humico: + 0.2
3. Preencha a célula D2 da coluna resíduo com a fórmula = INV.NORM.N(ALEATÓRIO(); 0 ; 1)¹⁾;

Ao final sua planilha deve estar preenchida como a que segue, apenas com os valores da coluna resíduo diferentes:

ATIVIDADE

1. Abra a planilha preenchida no Rcmdr
2. Monte o modelos linear com as preditoras e sua interação (solo, adubo e solo:adubo) para a resposta prodCampo
3. Interprete os valores dos coeficientes do modelo (summary) e calcule, a partir deles, os valores preditos pelo modelo para cada um dos tratamentos
4. Compare os preditos com relação aos valores utilizados para gerar os dados de prodCampo
5. Preencha a planilha google com os resultados do modelo

Interpretando Variáveis Indicadoras (Dummy)

As variáveis indicadoras devem ser interpretadas com cuidado. No exemplo acima, o modelo pode ser descrito da seguinte forma:

$$ y_{tr} = \alpha + \beta_1 * arg + \beta_2 * hum + \beta_3 * adubo + \beta_4 * arg * adubo + \beta_5 * hum * adubo $$

As variáveis arg, hum e adubo são dummy ou indicadoras, representadas por 1 quando presente e 0 quando ausentes. $\alpha, \beta_i$ representam as estimativas do modelo e estão relacionados, nesse caso, ao efeito de cada tratamento.

Para calcular o valor predito para o tratamento no solo arenoso com adubo, temos:

$$ y_{arenAdubo} = \alpha + \beta_3 * adubo $$

Isso em decorrência do tratamento arenoso sem adubo estar representado pelo intercepto ($\alpha$) do modelo.

Para o tratamento de solo argiloso com adubo o predito é:

$$ y_{argAdubo} = \alpha + \beta_1 * arg + \beta_3 * adubo + \beta_4 * arg * adubo $$

E assim por diante, usando as variáveis indicadoras e os coeficientes estimados para o cálculo do predito pelo modelo.

Interação entre preditoras: contínua e categórica

abra o arquivo davis.csv no R ou no Rcmdr
monte o modelo para peso com relação às variáveis preditoras: altura, sexo e suas interação.
a partir do modelo mais cheio, simplifique o modelo até o mínimo adequado
apresente o resultado em um gráfico

Peso de bebês ao nascer

abra o arquivo babies.csv no R ou Rcmdr
faça um modelo plausível com as variáveis:
- resposta bwt : peso do bebê ao nascer
- preditoras:
  - gestation: tempo de gestação (dias)
  - age: idade
  - weight: peso
  - smoke: 0 não fumante; 1 fumante
  - interações: até a 3 ordem para aquelas que são plausíveis e passíveis de interpretação biológica
- selecione o modelo mínimo plausível pelo método de simplificação para mínimo adequado
- interprete o resultado

Exercício Extra

Um artigo recente (Fisher, R. & Ai C. 2018)²⁾ sobre métodos de regressões múltiplas, apresenta dados sobre peixes de recifes de corais. Entre as questões apresentadas pelos autores originais do trabalho estava se a biomassa de diferentes guildas de peixes em zonas protegidas ou não de recifes. Aqui vamos usar apenas a guilda de peixes que se alimentam de plânctons e apenas parte das preditoras. O método desenvolvido no artigo é uma forma de automatizar a seleção de preditoras em modelos com muitas variáveis potenciais de influenciar a resposta.

faça uma análise exploratória das variáveis do dados plankivore.csv e suas relações;
monte o modelo mínimo adequado, partindo de todas as variáveis preditoras e suas interações;
verifique se não há nenhuma variável com relação não linear com a biomassa, e se houver use mais uma variável representada pelo quadrado dessa variável;
ao final faça o diagnóstico do modelo e veja se o resíduo cumprem com as premissas do modelo linear;
caso diagnostique problema no modelo, transforme a variável resposta usando o logaritmo natural;
refaça a seleção e o diagnóstico com a resposta na escala log;
interprete o resultado.

Fisher, R.; Ai C. L. et al. 2018. A simple function for full-subsets multiple regression in ecology with R. Ecology and Evolution 8: 6104-6113

¹⁾

Essa expressão retorna valores associados a uma distribuição normal com média 0 e desvio padrão 1

²⁾

note que temos dois homônimos aqui, o mais famoso estatístico e um critério de seleção de modelos juntos, como autores!! Os outros nomes foram omitidos propositadamente.

Laboratório de Ecologia de Florestas Tropicais

Barra lateral

Índice

Tutoriais

Material de Apoio

Área dos Alunos

Tabela de conteúdos

Modelos Lineares Múltiplos

Simplificando Modelos

Princípio da parcimônia (Navalha de Occam)

Método do modelo cheio ao mínimo adequado

Tomada de decisão

Interação entre preditoras

Simulando um experimento plausível

Interação entre preditoras: contínua e categórica

Peso de bebês ao nascer

Exercício Extra

Laboratório de Ecologia de Florestas Tropicais

Ferramentas do usuário

Ferramentas do site

Barra lateral

Índice

Tutoriais

Material de Apoio

Área dos Alunos

Tabela de conteúdos

Modelos Lineares Múltiplos

Simplificando Modelos

Princípio da parcimônia (Navalha de Occam)

Método do modelo cheio ao mínimo adequado

Tomada de decisão

Interação entre preditoras

Simulando um experimento plausível

Interação entre preditoras: contínua e categórica

Peso de bebês ao nascer

Exercício Extra

Ferramentas da página