====== Princípios da Estatística Frequentista ====== {{section>cursos:planeco:roteiro:07-class_base#testes_classicos}} ====== Regressão Linear Simples ====== {{section>cursos:planeco:roteiro:07-class_base#regressão_linear_simples}} ===== Regressão linear na prática ===== Agora que você entendeu como funciona a regressão linear, vamos para um exemplo prático. Baixe o arquivo de dados para o seu diretório: * {{ {{ :cursos:planeco:roteiro:produtividade_chuva.txt | produtividade_chuva.txt}} **Exemplo hipotético** Pesquisadores interessados em entender o efeito da precipitação sobre a produtividade primária liquída em ecossistemas terrestres, selecionaram 30 áreas naturais distribuídas por todo o globo. Dada a importância da água para a fotossíntese, a hipótese dos pesquisadores é que quanto maior a precipitação, maior será a produtividade primária líquida dos ecossistemas. Em cada área, os pequisadores coletaram duas informações: a precipitação anual média (mm) e a produtividade primária líquida (Mg/ha/ano). ==== Hipóteses estatísticas ==== Considerando que os pesquisadores estão interessados no efeito da precipitação sobre a produtividade, podemos assumir que a precipitação é a variável preditora (x) e a produtividade é a variável resposta (y). Como ambas as variáveis são contínuas, podemos aplicar uma regressão linear simples para testar a hipótese científica. Neste caso, o efeito de precipitação sobre a produtividade será descrito pela inclinação da reta (b). Sendo assim, as hipóteses estatísticas serão: * H0: B=0 * H1: B≠0 ==== Como fazer a regressão linear simples ==== 1) Abra o RCommander. Caso vc não tenha instalado o pacote no R, acesse o [[cursos:planeco:roteiro:00-rcmdr|tutorial]] que explica passo à passo como instalar e abrir o RCommander. 2) Importe o arquivo para o Rcommander (**Dados > Importar arquivos de dados > de arquivo texto , clipboard, URL...**) e importe os dados //produtividade_chuva//. Atenção, pois o Separador de Campos que deve ser selecionado para essa planilha de dados é **Tabs**. 3) Conheça os dados, clicando no botão **Ver conjunto de dados** e também em **Estatísticas > Resumos > Conjunto de dados ativo...**. 4) Avalie visualmente a relação entre as variáveis com o gráfico de dispersão em: **Gráficos > Diagramas de dispersão (scatterplot)**. Na aba de Opções marque **Boxplots marginais**, **Smooth line** e **Mostre espalhamento (spread)**. Como o objetivo dos pesquisadores é analisar o efeito da precipitação sobre a produtividade de plantas, faça o gráfico selecionando produtividade no eixo Y e precipitação no eixo X. 5) Ajuste um modelo de regressão linear da produtividade em função da precipitação. Para isso, vá em **Estatística > Ajuste de Modelos > Regressão linear**. Escolha a produtividade como Variável resposta e precipitação como Variável Explicativa. 6) No menu **Modelos** podemos olhar o resumo dos resultados do modelo clicando em **Resumir modelo**, olhando os valores dos coeficientes dos modelos. 7) Também é possível obter os resíduos e os valores ajustados do modelo clicando no menu **Modelos** em **Adicionar estatísticas calculadas aos dados** e selecionando **Valores ajustados** e **Resíduos**. Esses valores serão colocados como colunas novas na planilha de dados e para visualizá-los, basta clicar no botão **Ver conjunto de dados**. ==== A hipótese científica foi corroborada? ==== Para entender os resultados obtidos, primeiramente devemos examinar o resumo dos resultados. Vcs verão algumas informações relacionadas aos dois parâmetros do modelo: o intercepto e a inclinação (no resumo chamado de "precipitação"). Para cada um desses parâmetros há uma estimativa, um erro padrão, um valor de t e um valor de P. Por agora vamos focar apenas na estimativa e em seu p associado. {{ :cursos:planeco:roteiro:summary_model_chuva.png?400 |}} Quanto ao **intercepto**, vemos que a estimativa feita pelo modelo é de -0.19 e o valor de p é 0.69. Isso significa que quando a precipitação é igual à 0 nosso modelo de regressão estima que a produtividade média dos ecossistemas terretres será de -0.19 MgC/ha/ano. Mas notem que esse valor não é significativamente diferente de zero (como o valor de P=0.69 é maior do que o alfa crítico de 0.05, nós aceitamos H0, a hipótese de que o intercepto é igual a zero). Embora esse resultado possa ser explorado do ponto de vista biológico, lembrem-se que a hipótese científica dos pesquisadores ancora-se na estimativa de b (a inclinação da reta). Então vamos à ela. Quanto à **inclinação**, o modelo estimou um valor de 0.003 associado a um p extremamente pequeno (P<0.00001). Esses resultados indicam que: * a precipitação afeta de maneira significativa a produtividade primária em Ecossistemas Terrestres (com este valor de P<0.00001 nós falhamos em aceitar H0 e ficamos com H1, que diz que o B populacional é diferente de 0); Sendo assim, a hipótese científica foi corroborada. * e com qual magnitude ocorre tal efeito da chuva sobre a produtividade das plantas? Para cada aumento de 1mm na quantidade de chuva média anual de uma localidade observa-se, em média, um aumento em **0.003 MgC/ha/ano** na produtividade primária líquida dos ecossistemas. Adicionalmente temos o valor de **R2 ajustado** para nos ajudar na interpretação do modelo. O R2 ajustado é de 0.80. Isso significa que a variação na precipitação explica aproximadamente 80% da variação observada na produtividade das diferentes localidades. Os demais 20% são explicados por fatores desconhecidos. Mas, lembre-se que R2 de 80% é muito alto e muito raro de ser encontrado na biologia (efeitos da simulação)! ==== As premissas do modelo foram atendidas? ==== Para que as conclusões descritas acima sejam confiáveis, é preciso checar se as premissas do modelo estão sendo atendidas ===Como saber se os erros/resíduos seguem uma distribuição normal?=== /* {{section>cursos:planeco:roteiro:07-class_base#como_saber_se_os_erros_residuos_seguem_uma_distribuicao_normal}} */ Para isso vamos usar os resíduos da regressão que foram incluídos como uma coluna na sua planilha de dados e aparecem com o nome //"residuals.RegModel.*"// (o "*" será um número que vai depender de quantos modelos você já fez até aqui. Por exemplo, se esse é o segundo modelo que você está calculando desde que abriu o Rcommander, a variável vai se chamar "residuals.RegModel.2". Mas não se preocupe com esse número). A partir do menu **Gráficos**, escolha **Histograma** e selecione a variável "residuals.RegModel.*". **Essa figura se assemelha a uma distribuição normal?**. Se sim, isso é um bom indício de que seus resíduos têm uma distribuição normal. Se não, será necessário repensar se a regressão linear simples é a análise mais adequada para esses dados e/ou se é necessário fazer alguma transformação de variáveis ((posteriormente falaremos disso)). Essa é uma análise muito simplista e mais para frente nesse roteiro vamos conhecer outros métodos para avaliar a distribuição dos resíduos. === Como saber se a variância dos erros/resíduos é constante?=== {{section>cursos:planeco:roteiro:07-class_base#como_saber_se_a_variância dos erros_residuos_e_constante?}} Para fazer esse gráfico, vá para o menu **Gráficos > Diagrama de dispersão**, escolha para o eixo Y os resíduos (que foram incluídos na sua planilha de dados como //residuals.RegModel.*//) e para o eixo X os valores estimados de Y (que também foram incluídos na sua planilha de dados, como //fitted.RegModel.*//). Antes de dar "OK", vá até a aba **Opções** e deixe selecionada apenas a caixa //"Smooth line"//. {{section>cursos:planeco:roteiro:07-class_base#residuo2}} === Gráficos Diagnósticos Sintéticos === Para elaborar o conjunto de gráficos diagnósticos do nosso modelo, no RCommander vá em **Modelos > Gráficos > Diagnósticos gráficos básicos**. {{ :cursos:planeco:roteiro:diagnostico_chuva.png?400 |}} {{section>cursos:planeco:roteiro:07-class_base#final}}