Modelos Lineares Múltiplos I
Uma extensão do modelo linear simples 1) são os modelos lineares com mais de uma preditora, aqui definido como modelos múltiplos. Quando temos mais de uma preditora o modelo aumenta em complexidade com mais parâmetros para estimar. Além disso, a estrutura mais complexa do modelo gera desafios para a interpretação e dificulta a avaliação da adequação do modelo aos dados. Uma primeira complexidade está relacionada a como simplificar a estrutura do modelo com a finalidade de facilitar a interpretação e melhorar a estimação dos parâmetros. A tomada de decisão sobre quais variáveis devemos reter em nosso modelo e quais podem ser retiradas, por não terem efeito na variável resposta, pode ser feita utilizando diferentes critérios e técnicas. A seguir apresentamos uma das técnicas utilizadas para essa tomada de decisão e que iremos utilizar ao longo desse curso. Outros critérios ou técnicas podem ser utilizadas com vantagens ou desvantagens em relação ao que utilizaremos. Não é objetivo desse curso se debruçar sobre essas diferentes técnicas.
Duas preditoras categóricas
O primeiro exemplo que iremos trabalhar é baseado nos dados utilizados para exemplificar o teste de Anova. Vamos criar um experimento plausível a partir dele.
Simulando um experimento plausível
Vimos que existe um efeito do tipo de solo na produção de um cultivar. Uma expectativa plausível é que a adição de adubo também tenha efeito na produtividade. Ou seja, os tipos de solo tem produtividade diferente, assim como o adubo aumenta a produtividade.
Nos dados originais do exercício de ANOVA a produtividade média nos solos foi de:
- arenoso: 9.9
- argiloso: 11.5
- humico: 14.3
Vamos, a partir dessa informação, criar um experimento onde, além da diferença do solo, metade dos cultivos foram tratados com adubo orgânico.
- 1. Abra o arquivo cropMulti em uma planilha eletrônica:
- 3. Preencha a célula E2 da coluna
desvios normalcom a fórmula = INV.NORM.N(ALEATÓRIO(); 0 ; 1.5)4). - 4. Some os valores em uma mesma linha
Ao final sua planilha deve estar preenchida como a que segue, apenas com os valores da coluna resíduo diferentes:
Procedimentos
- Salve a planilha com o nome
soloAduboAditivo.csvem formato texto com campos separados por vírgula; - Abra os dados no Rcmdr;
- Produza um modelo chamado
mlSolo_Adubo_Aditivoda seguinte forma:
prodCampo ~ solo + adubo;
- Avalie o modelo pelo seu sumário e pela tabela de Anova;
- Faça uma interpretação biológica do resultado do modelo.
Modelos Plausíves
O nosso modelo tem duas preditoras e pode ser simplificado. Nesse caso, como temos poucas possibilidades de comparação, podemos comparar os modelos plausíveis, desde que sejam aninhados. O que produzimos acima tem o efeito de solo e de adubo, podemos pensar em mais algumas possibilidades de modelo:
- mlSolo só com o efeito do solo:
prodCampo ~ solo
- mlAdubo só com efeito do adubo:
prodCampo ~ adubo
- mlNull sem efeito de solo ou adubo:
prodCampo ~ 1
O valor 1 na última formula indica que o modelo não tem nenhuma variável preditora 5)
Interação entre preditoras
Nos modelos acima, desconsideramos um elemento importante que emerge quanto temos mais de uma preditora, a possibilidade de uma variável preditora interferir no efeito de outra, efeito esse chamado de interação. A interação é um elemento muito importante quando temos mais de uma preditora, pois desconsiderá-la pode limitar o entendimento dos processos envolvidos. Um exemplo cotidiano da interação é visto no uso de medicamentos e o alerta da bula sobre interação medicamentosa ou efeitos colaterais para pessoas portadoras de doenças crônicas. Dizemos que um medicamento tem interação com outra substância quando o seu efeito é modificado pela presença de outra substância, como por exemplo a ingestão de álcool junto com muitos medicamentos. Nos modelos a interação tem uma interpretação similar, a resposta pelo efeito de uma variável preditora se altera com a presença de outra preditora. Muitas vezes a interação pode ser o efeito de interesse do estudo, como na pergunta: O efeito de solo na produtividade agrícola depende da quantidade de adubo orgânico adicionado? Ou em outras palavras: O efeito da adubação orgânica depende do tipo de solo? Note que nestas perguntas o foco não é se há ou não efeito do adubo ou solo, mas se a presença de uma variável afeta o efeito de outra.
- No conjunto de modelos acima, não incluímos o termo da interação. Produza o modelo abaixo incluindo o termo da interação e avalie esse modelo e seus coeficientes.
prodCampo ~ solo + adubo + solo:adubo
Não é esperado encontrar interação entre as preditoras nos dados simulados da maneira como fizemos, ele pode emergir por acaso, apenas porque temos uma variável aleatória 6). Da maneira como simulamos os dados temos duas preditoras que tem efeitos aditivos onde não há interação. Uma outra forma de dizer isso é que o efeito do adubo não interfere no efeito do solo, ou que esses efeitos são independentes. A interpretação biológica nesse caso também pode ser feita independentemente.
Simulando dados com interação
Seguindo a mesma abordagem anterior, vamos produzir dados simulando a interação entre as variáveis solo e adubo. Para isso precisamos produzir dados em que o efeito do adubo depende do tipo de solo.
- Abra o arquivo cropMulti em uma planilha eletrônica:
- Preencha a coluna
efeitoAdubocom os valores:- 2.7 para
arenosocomaduboigual asim - 0.7 para
argilosocomaduboigual asim - 0.2 para
humicocomaduboigual asim
- O campos da coluna
efeitoAduboondeaduboé igual anãodevem ser preenchidos com0 - Preencha a célula E2 da coluna
desvios normalcom a fórmula = INV.NORM.N(ALEATÓRIO(); 0 ; 1.5)7), as atuais utilizam a mesma que o excel. - Some na coluna
prodCampoos valoresprodSolo + efeitoAdubo + desviosNormal
Ao final sua planilha deve estar preenchida como a que segue, apenas com os valores da coluna resíduo diferentes:
Procedimentos
- Salve a planilha com o nome
soloAduboInteracao.csv; - Importe os dados para o Rcmdr. Atenção nomeie os dados na aba de importação com o nome
soloAduboInt, em alguns casos o Rcmdr não importa se a planilha e os dados importados tiverem o mesmo nome de uma importação anterior - Confira se os dados foram lidos corretamente, inclusive se a decimal é
.; - Produza o modelo cheio
mlSolo_AduboAllcom a seguinte formula:prodCampo ~ solo + adubo + solo:adubo- interprete o resumo, comparando com o resumo do modelo similar proveniente da planilha de dados anterior
Simplificando Modelos
Durante o curso usaremos o procedimento de simplificar o modelo a partir do modelo cheio.
O procedimento consiste em comparar modelos aninhados8), dois a dois, retendo o que está mais acoplado aos dados. Para comparar os modelos utilizaremos o procedimento da partição da variância baseado na tabela de anova. Quando os modelo comparados são diferentes retemos o mais complexo, pois explica mais variação dos dados 9). Por outro lado, quando os modelos não são diferentes no seu poder explicativo, retemos o modelo mais simples, apoiados no princípio da parcimônia. Para tomar a decisão se os modelos são iguais ou diferentes utilizamos a estatística F da tabela de anova.
Princípio da parcimônia (Navalha de Occam)
- número de parâmetros menor possível
- linear é melhor que não-linear
- reter menos pressupostos
- simplificar ao mínimo adequado
- explicações mais simples são preferíveis
Método do modelo cheio ao mínimo adequado
- ajuste o modelo máximo (cheio)
- simplifique o modelo:
- inspecione os coeficientes (summary)
- remova termos não significativos 10)
- ordem de remoção de termos:
- interações não significativas (primeiro as de maior ordem)
- termos quadráticos ou não lineares
- variáveis explicativas não significativas
- caso faça sentido, agrupe níveis de fatores sem diferença
- verifique se a ordem de remoção não interfere na seleção do modelo
- retorne ao modelo cheio
- retire as variáveis que não foram retidas no outro procedimento em outra ordem
- confirme que o modelo mínimo adequado é o mesmo
- Faça o diagnóstico do modelo mínimo adequado
- Interprete o modelo selecionado
Tomada de decisão
A diferença não é significativa:
- retenha o modelo mais simples
- continue simplificando
A difereça é significativa:
- retenha o modelo complexo
- verifique se existe termo que pode e ainda não foi retirado
- caso não haja nenhum termo que possa ser retirado, este é o modelo MINÍMO ADEQUADO
Interpretando Variáveis Indicadoras (Dummy)
As variáveis indicadoras devem ser interpretadas com cuidado. No exemplo do modelo cheio acima 11), o modelo pode ser descrito da seguinte forma:
$$ y_{tr} = \alpha + \beta_1 * arg + \beta_2 * hum + \beta_3 * adubo + \beta_4 * arg * adubo + \beta_5 * hum * adubo $$
As variáveis arg, hum e adubo são dummy ou indicadoras, representadas por 1 quando presente e 0 quando ausentes. $\alpha, \beta_i$ representam as estimativas do modelo e estão relacionados, nesse caso, ao efeito de cada tratamento.
Para calcular o valor predito para o tratamento no solo arenoso com adubo, temos:
$$ y_{arenAdubo} = \alpha + \beta_3 * adubo $$
Isso em decorrência do tratamento arenoso sem adubo estar representado pelo intercepto ($\alpha$) do modelo.
Para o tratamento de solo argiloso com adubo o predito é:
$$ y_{argAdubo} = \alpha + \beta_1 * arg + \beta_3 * adubo + \beta_4 * arg * adubo $$
E assim por diante, usando as variáveis indicadoras e os coeficientes estimados para o cálculo do predito pelo modelo.
Procedimento
- Faça a seleção do modelo mínimo adequado para o conjunto de dados da última planilha, partindo do modelo com a interação, simplificando até o modelo mínimo adequado. Utilize o procedimentos de comparação de modelo pela partição de variância;
- Avalie o modelo selecionado pelo sumário e pela tabela de Anova. Reconheça os valores utilizados para gerar os dados a partir das estimativas do modelo.
- Preencha a aba
cropInterada planilha lmCrop2pred com os resultados do modelo selecionado - Na planilha onde os dados foram gerados, calcule, a partir dos coeficientes estimados, os valores preditos pelo modelo para cada uma das observações, coloque esses valores em uma coluna nomeada de
predito. Veja como calcular os valores preditos no quadro interpretando_variáveis_indicadoras_(dummy) - Calcule os resíduos do modelo 12) em uma coluna denominada
residuos - Eleve o valor dos resíduos ao quadrado em uma coluna denominada
resQuad. A soma destes valores representa a variabilidade não explicada pelo modelo - Calcule a média da variável resposta e calcule a diferença deste valor para todas as observações e eleve ao quadrado e armazene em uma coluna
desvQuadTotal, a soma destes valores representa a variabilidade total dos dados
Modelos Lineares Multiplos: ANCOVA
Entres os testes frequentistas clássicos existe um que se presta para avaliar o efeito de uma preditora categórica e uma contínua influenciando uma variável respostas contínua, denominado de Análise de Covariância. Na unificação existente nos modelos lineares, não precisamos nos preocupar com essa nomenclatura antiga, podemos simplesmente incorporar essa variáveis indistintamente no modelo e ele automaticamente irá transformar os níveis da variável categóricas em variáveis indicadoras. Entretanto, precisamos entender essa transformação para poder interpretar o modelo resultante e ficar atentos, especialmente, quando misturamos variáveis preditoras contínuas com categóricas.
Vamos agora retomar os procedimentos que vimos no inicio desse roteiro e tratar de um exemplo onde as variáveis preditoras apresentam essa complexidade.
Exemplo: peso, altura e sexo
Vamos utilizar nesse exemplo dados parciais de uma publicação (Davis 199014)) que contém informação sobre peso, altura e sexo de indivíduos.
- baixe o arquivo de dados altpeso.txt;
-
- nome das variáveis no arquivo
- separador de campo tabulação (
Tabs) - separador de decimais como ponto
- explore os dados fazendo um gráfico de dispersão pelo menu
Gráficos>Diagrama de Dispersão, selecionando as variáveisweight,heighte na opçãoGráfico por grupos…selecione a variávelsex - salve o gráfico para postar no formulário
Modelos Plausíves
Nesse exemplo estamos interessados em entender a influência de altura e sexo no peso dos indivíduos. Neste caso temos alguns modelos plausíveis concorrentes que iremos nomear como:
- lmNull sem efeitos de altura ou sexo:
weight ~ 1
- lmSex só com efeito do sexo:
weight ~ sex
- lmAlt só com o efeito do altura :
weight ~ height
- lmAltSex efeito aditivo de altura e sexo:
weight ~ height + sex
- lmAltXSex efeito de interação entre altura e sexo:
weight ~ height * sex
O valor 1 na última fórmula indica que o modelo não tem nenhuma variável preditora 15).
- não esqueça de nomear os modelos de forma diferente para que não sejam sobrescritos;
- faça o
summaryde cada um deles e salve o resultado em um arquivo; - descreva em uma frase a conclusão biológica associada a cada um desses modelos;
- indique qual o valor que indica a precisão da conclusão para cada um dos modelos.
Modelo lmAltXSex
Vamos agora explorar o nosso modelo mais complexo, aquele que além da height e sex tem também a interação entre essas duas variáveis height:sex.
Para o modelo com a interação lmAltXsex:
- utilize os coeficientes do modelo para:
- estimar o peso de homens com alturas de: 1.5; 1.7 e 1.9 metros;
- estimar o peso de mulheres com alturas de 1.5; 1.7 e 1.9 metros;
- descreva a equação, com os valores dos coeficientes que usou para o cálculo;
- anote os valores para postar no formulário final.
Seleção do Modelo
Agora, vamos usar o procedimento de simplificação do modelo que usamos no exemplo anterior para chegar ao modelo mínimo adequado.
- inicie com o modelo cheio e compare, dois a dois, modelos aninhados;
- a cada etapa de comparação, salve a
tabela de Anova; - a cada etapa, descreva a decisão tomada;
- descreva o resultado do modelo selecionado.
Formulário de resposta
Responda o o formulário MLM I incluindo arquivos de resultados quando solicitado.
adubo igual a simadubo igual a não = NORM.INV(RAND(), 0, 1.5) = NORM.INV(RAND(), 0, 1.5)solo e adubodesQuadTotal - resQuad) sobre a desvQuadTotal. Ou seja, quanto da variação dos dados é explicada pelo modelo em relação ao total de variação dos dados




