Os modelos lineares são uma generalização dos testes de hipótese clássicos mais simples. Uma regressão linear, por exemplo, só pode ser aplicada para dados em que tanto a variável preditora quanto a resposta são contínuas, enquanto uma análise de variância é utilizada quando a variável preditora é categórica. Os modelos lineares não têm essa limitação, podemos usar variáveis contínuas ou categóricas indistintamente.
ERRATA: por volta de 16'28“ digo que o valor da inclinação na população é 3,5 quando o correto é 2,5
No nosso quadro de testes clássicos frequentistas, definimos os testes, baseados na natureza das variáveis respostas e preditoras.
Os modelos lineares dão conta de todos os testes apresentados na tabela acima que tenham a variável resposta contínua. Portanto, já não há mais necessidade de decorar os nomes: teste-t, Anova, Anova Fatorial, Regressão Simples, Regressão Múltipla, Ancova entre muitos outros nomes de testes que foram incorporados nos modelos lineares. Isso não livra o bom usuário de estatística de entender a natureza das variáveis que está utilizando. Isso continua sendo imprescindível para tomar boas decisões ao longo do processo de análise e interpretação dos dados.
Vamos começar com um exemplo simples de regressão, mas de forma diferente da usual. Vamos usar a engenharia reversa para entender bem o que os modelos estatísticos estão nos dizendo e como interpretar os resultados produzidos. Para isso vamos inicialmente gerar dados fictícios. Esses dados terão dois componentes: uma estrutura determinística e outra aleatória. A primeira está relacionada ao processo de interesse e relaciona a variável resposta à preditora. No caso, essa estrutura é linear e tem a seguinte forma:
$$ y = {\alpha} + {\beta} x$$
Note que estamos usando uma notação diferente da aula de regressão linear, mas a expressão é a mesma:
$\alpha$ = A
$\beta$ = B
Ou seja, os parâmetros da população ao qual não temos acesso. O componente aleatório é expresso por uma variável probabilística Gaussiana da seguinte forma:
$$ \epsilon = N(0, \sigma) $$
Portanto, nossos dados serão uma amostra de uma população com a seguinte estrutura:
$$ y = {\alpha} + {\beta} x + \epsilon$$
Parece complicado, mas é razoavelmente simples gerar dados aleatórios em nosso computador baseado nessa estrutura. Para isso, abra uma planilha eletrônica e siga os passos descritos abaixo:
A1
;A2:A16
com uma sequência de valores de 0.5 a 7.5, em intervalos de 0.5B1
;B2
com a fórmula = 4 + 3.5 * A2B3:B16
, clicando e arrastando o mouse quando aparecer no canto inferior esquerdo da célula B2
o sinal de +.C1
;C3:C16
, clicando e arrastando o mouse quando aparecer no canto inferior esquerdo da célula B2 o sinal de +.A função INV.NORM.N() tem três parâmetros, (1) probabilidade, (2) média e (3) desvios padrão. Ao definir o terceiro parâmetro, estamos amostrando valores de uma distribuição normal com desvio padrão igual a 7.
D1
;
Note que a cada vez que faz algum cálculo na planilha os valores dos desvios são atualizados, ou seja, novas amostras são feitas da pela função INV.NORM.N os valores de desvios atualizados. Para evitar esse comportamento podemos selecionar os valores desta coluna e usar Editar > Colar especial
e usar a opção de colar apenas os valores numericos, com isso a formula some e os valores não são mais atualizados a todo momento.
Anote os valores do resultado da análise na planilha modelo linear I
ATENÇÃO A PLANILHA GOOGLE PODE ESTAR FORMATADA PARA DECIMAL COM ,
. CONFIRA AO FAZER A TRANSPOSIÇÃO DE VALORES
A base da estatística frequentista é que uma amostra e seus resultados são apenas uma realização dentre os possíveis resultados provenientes de uma população real, a qual não temos acesso. Utilizando os resultados de outros alunos na tabela modelo linear I, vamos investigar alguns conceitos importantes.
Para entendermos melhor uma das fontes de variabilidade que afeta nossas estimativas e também o resíduo do modelo, vamos fazer uma pequena modificação nos nossos dados simulados, aumentando (MUITO!) a variabilidade do nosso sistema. Para isso precisamos apenas mudar o parâmetro da nossa população associados à sua variabilidade (no caso, o parâmetro desvio padrão
). Desta forma, a nossa população estatística incorpora maior variabilidade. Isso, por consequência, afeta nossas estimativas. Vamos investigar como:
INV.NORM.N(ALEATÓRIO(); 0 ; 7)
para:
INV.NORM.N(ALEATÓRIO(); 0 ; 14)
Uma outra fonte de imprecisão no nosso modelo tem relação com a próprio desenho experimental e está associada ao tamanho da nossa amostra. Essa fonte de imprecisão, apesar de estar acoplada à variabilidade da sistema, pode ser minimizada com o aumento do esforço amostral. Vamos simular uma amostra maior para o caso acima onde o desvio padrão da população é 7, modificando a sequência de valores de x
na amplitude de 0,5 a 7,5 para intervalos de 0,14, totalizando 51 observações na nossa amostra.
Para agilizar a construção desta sequência podemos criar um valor de referência para as observações de 0 a 50 e operar esse valor de referência.
0
e crie uma sequencia de inteiros até 50 (célula A51);=0.5+(1.4*A2)
e copie a fórmula para todas a coluna até a célula B51;INV.NORM.N(ALEATÓRIO(); 0 ; 14)
, como no exemplo anterior;PARA ENTREGAR ANTES DO INÍCIO DA PRÓXIMA AULA
Preencha as perguntas no formulário abaixo até antes da próxima aula ou a data estipulada pela equipe da disciplina. Caso tenha algum problema, faça pelo link https://forms.gle/LuRFrjnTEmrNCccJ8. Em caso de mais de uma submissão, a última, antes do final do prazo, será considerada.