Uma extensão do modelo linear simples 1) são os modelos lineares com mais de uma preditora, aqui definido como modelos múltiplos. Quando temos mais de uma preditora o modelo aumenta em complexidade com mais parâmetros para estimar. Além disso, a estrutura mais complexa do modelo gera desafios para a interpretação e dificulta a avaliação da adequação do modelo aos dados. Uma primeira complexidade está relacionada a como simplificar a estrutura do modelo com a finalidade de facilitar a interpretação e melhorar a estimação dos parâmetros. A tomada de decisão sobre quais variáveis devemos reter em nosso modelo e quais podem ser retiradas, por não terem efeito na variável resposta, pode ser feita utilizando diferentes critérios e técnicas. A seguir apresentamos uma das técnicas utilizadas para essa tomada de decisão e que iremos utilizar ao longo desse curso. Outros critérios ou técnicas podem ser utilizadas com vantagens ou desvantagens em relação ao que utilizaremos. Não é objetivo desse curso se debruçar sobre essas diferentes técnicas.
O primeiro exemplo que iremos trabalhar é baseado nos dados utilizados para exemplificar o teste de Anova. Vamos criar um experimento plausível a partir dele.
Vimos que existe um efeito do tipo de solo na produção de um cultivar. Uma expectativa plausível é que a adição de adubo também tenha efeito na produtividade. Ou seja, os tipos de solo tem produtividade diferente, assim como o adubo aumenta a produtividade.
Nos dados originais do exercício de ANOVA a produtividade média nos solos foi de:
Vamos, a partir dessa informação, criar um experimento onde, além da diferença do solo, metade dos cultivos foram tratados com adubo orgânico.
desvios normal
com a fórmula = INV.NORM.N(ALEATÓRIO(); 0 ; 1.5)4).Ao final sua planilha deve estar preenchida como a que segue, apenas com os valores da coluna resíduo diferentes:
Procedimentos
mlSolo_Adubo
da seguinte forma:
prodCampo ~ solo + adubo
O nosso modelo tem duas preditoras e pode ser simplificado. Nesse caso, como temos poucas possibilidades de comparação, podemos comparar os modelos plausíveis, desde que sejam aninhados. O que produzimos acima tem o efeito de solo e de adubo, podemos pensar em mais algumas possibilidades de modelo:
prodCampo ~ solo
prodCampo ~ adubo
prodCampo ~ 1
O valor 1
na última formula indica que o modelo não tem nenhuma variável preditora 5)
Nos modelos acima, desconsideramos um elemento importante que emerge quanto temos mais de uma preditora, a possibilidade de uma variável preditora interferir no efeito de outra, efeito esse chamado de interação. A interação é um elemento muito importante quando temos mais de uma preditora, pois desconsiderá-la pode limitar o entendimento dos processos envolvidos. Um exemplo cotidiano da interação é visto no uso de medicamentos e o alerta da bula sobre interação medicamentosa ou efeitos colaterais para pessoas portadoras de doenças crônicas. Dizemos que um medicamento tem interação com outra substância quando o seu efeito é modificado pela presença de outra substância, como por exemplo a ingestão de álcool junto com muitos medicamentos. Nos modelos a interação tem uma interpretação similar, a resposta pelo efeito de uma variável preditora se altera com a presença de outra preditora. Muitas vezes a interação pode ser o efeito de interesse do estudo, como na pergunta: O efeito de solo na produtividade agrícola depende da quantidade de adubo orgânico adicionado?. Ou em outras palavras: O efeito da adubação orgânica depende do tipo de solo?. Note que nestas perguntas o foco não é se há ou não efeito do adubo ou solo, mas se a presença de uma variável afeta o efeito de outra.
prodCampo ~ solo + adubo + solo:adubo
Não é esperado encontrar interação entre as preditoras nos dados simulados da maneira como fizemos, ele pode emergir por acaso, apenas porque temos uma variável aleatória 6). Da maneira como simulamos os dados temos duas preditoras que tem efeitos aditivos onde não há interação. Uma outra forma de dizer isso é que o efeito do adubo
não interfere no efeito do solo
, ou que esses efeitos são independentes. A interpretação biológica nesse caso também pode ser feita independentemente.
Seguindo a mesma abordagem anterior, vamos produzir dados simulando a interação entre as variáveis solo
e adubo
. Para isso precisamos produzir dados em que o efeito do adubo depende do tipo de solo.
efeitoAdubo
com os valores:arenoso
com adubo
igual a sim
argiloso
com adubo
igual a sim
humico
com adubo
igual a sim
efeitoAdubo
onde adubo
é igual a não
devem ser preenchidos com 0
desvios normal
com a fórmula = INV.NORM.N(ALEATÓRIO(); 0 ; 1.5)7), as atuais utilizam a mesma que o excel.prodCampo
os valores prodSolo + efeitoAdubo + desviosNormal
Ao final sua planilha deve estar preenchida como a que segue, apenas com os valores da coluna resíduo diferentes:
Procedimentos
mlSolo_AduboAll
com a seguinte formula:prodCampo ~ solo + adubo + solo:adubo
Durante o curso usaremos o procedimento de simplificar o modelo a partir do modelo cheio. O procedimento consiste em comparar modelos aninhados8), dois a dois, retendo o que está mais acoplado aos dados. Para comparar os modelos utilizaremos o procedimento da partição da variância baseado na tabela de anova. Quando os modelo comparados são diferentes retemos o mais complexo, pois explica mais variação dos dados 9). Por outro lado, quando os modelos não são diferentes no seu poder explicativo, retemos o modelo mais simples, apoiados no princípio da parcimônia. Para tomar a decisão se os modelos são iguais ou diferentes utilizamos a estatística F da tabela de anova.
A diferença não é significativa:
A difereça é significativa:
As variáveis indicadoras devem ser interpretadas com cuidado. No exemplo do modelo cheio acima 11), o modelo pode ser descrito da seguinte forma:
ytr=α+β1∗arg+β2∗hum+β3∗adubo+β4∗arg∗adubo+β5∗hum∗adubo
As variáveis arg, hum e adubo são dummy ou indicadoras, representadas por 1 quando presente e 0 quando ausentes. α,βi representam as estimativas do modelo e estão relacionados, nesse caso, ao efeito de cada tratamento.
Para calcular o valor predito para o tratamento no solo arenoso com adubo, temos:
yarenAdubo=α+β3∗adubo
Isso em decorrência do tratamento arenoso sem adubo estar representado pelo intercepto (α) do modelo.
Para o tratamento de solo argiloso com adubo o predito é:
yargAdubo=α+β1∗arg+β3∗adubo+β4∗arg∗adubo
E assim por diante, usando as variáveis indicadoras e os coeficientes estimados para o cálculo do predito pelo modelo.
Procedimento
cropIntera
da planilha lmCrop2pred com os resultados do modelo selecionadopredito
. Veja como calcular os valores preditos no quadro interpretando_variáveis_indicadoras_(dummy)residuos
resQuad
. A soma destes valores representa a variabilidade não explicada pelo modelodesvQuadTotal
, a soma destes valores representa a variabilidade total dos dados
adubo
igual a sim
adubo
igual a não
= NORM.INV(RAND(), 0, 1.5)
= NORM.INV(RAND(), 0, 1.5)
solo
e adubo
desQuadTotal
- resQuad
) sobre a desvQuadTotal
. Ou seja, quanto da variação dos dados é explicada pelo modelo em relação ao total de variação dos dados