Durante o curso usaremos o procedimento de simplificar o modelo a partir do modelo cheio. O procedimento consiste em comparar modelos aninhados, dois a dois, retendo o que está mais acoplado aos dados. Caso os modelos não sejam diferentes no seu poder explicativo, retemos o modelo mais simples, apoiados no princípio da parcimônia.
A diferença não é significativa:
A difereça é significativa:
A interação é um elemento muito importante quando temos mais de uma preditora, pois desconsiderá-la pode limitar o entendimento dos processos envolvidos. Um exemplo cotidiano da interação é visto no uso de medicamentos e o alerta da bula sobre interação medicamentosa ou efeitos colaterais para pessoas portadoras de doenças crônicas. Dizemos que um medicamento tem interação com outra substância quando o seu efeito é modificado pela presença de outra substância, como por exemplo a ingestão de álcool junto com muitos medicamentos. Nos modelos, a interação tem uma interpretação similar, a resposta pelo efeito de uma variável preditora se altera com a presença de outra preditora.
Vimos que existe um efeito do tipo de solo na produção de um cultivar no exemplo de ANOVA. Uma expectativa plausível é que a adição de adubo também tenha efeito na produtividade e modifique o efeito do solo. Esse é nosso próximo exemplo. Para ele vamos usar uma simulação de dados similar ao que fizemos no modelo linear simples.
Nos dados originais do exercício de ANOVA a produtividade média nos solos foi de:
Vamos, a partir dessa informação, criar um experimento onde, além da diferença do solo, metade dos cultivos foram tratados com adubo orgânico.
Ao final sua planilha deve estar preenchida como a que segue, apenas com os valores da coluna resíduo diferentes:
ATIVIDADE
Interpretando Variáveis Indicadoras (Dummy)
As variáveis indicadoras devem ser interpretadas com cuidado. No exemplo acima, o modelo pode ser descrito da seguinte forma:
ytr=α+β1∗arg+β2∗hum+β3∗adubo+β4∗arg∗adubo+β5∗hum∗adubo
As variáveis arg, hum e adubo são dummy ou indicadoras, representadas por 1 quando presente e 0 quando ausentes. α,βi representam as estimativas do modelo e estão relacionados, nesse caso, ao efeito de cada tratamento.
Para calcular o valor predito para o tratamento no solo arenoso com adubo, temos:
yarenAdubo=α+β3∗adubo
Isso em decorrência do tratamento arenoso sem adubo estar representado pelo intercepto (α) do modelo.
Para o tratamento de solo argiloso com adubo o predito é:
yargAdubo=α+β1∗arg+β3∗adubo+β4∗arg∗adubo
E assim por diante, usando as variáveis indicadoras e os coeficientes estimados para o cálculo do predito pelo modelo.
Um artigo recente (Fisher, R. & Ai C. 2018)2) sobre métodos de regressões múltiplas, apresenta dados sobre peixes de recifes de corais. Entre as questões apresentadas pelos autores originais do trabalho estava se a biomassa de diferentes guildas de peixes em zonas protegidas ou não de recifes. Aqui vamos usar apenas a guilda de peixes que se alimentam de plânctons e apenas parte das preditoras. O método desenvolvido no artigo é uma forma de automatizar a seleção de preditoras em modelos com muitas variáveis potenciais de influenciar a resposta.