Ferramentas do usuário

Ferramentas do site


cursos:planeco:roteiro:07-class_base

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anterior Revisão anterior
Próxima revisão
Revisão anterior
cursos:planeco:roteiro:07-class_base [2022/03/23 18:53]
adalardo
cursos:planeco:roteiro:07-class_base [2024/02/26 18:02] (atual)
Linha 3: Linha 3:
 ====== Testes Clássicos ====== ====== Testes Clássicos ======
  
-Os testes clássicos estatísticos estão inseridos no escopo da estatística frequentista ou inferência frequentista. Nessa abordagem a inferência ​é baseada na frequência ​ou proporção dos dados amostrados+Os testes clássicos estatísticos estão inseridos no escopo da estatística frequentista ou inferência frequentista. Nessa abordagem a probabilidade ​é considerada uma frequência e a inferencia está baseada na frequência ​com que eventos ocorrem nos dados coletados
  
 /* /*
Linha 22: Linha 22:
 ====== Anova ====== ====== Anova ======
  
-Na aula sobre [[cursos:​planeco:​roteiro:​02-hipot|teste de hipótese]] utilizamos técnicas de Monte Carlo para testar a hipótese de que duas médias são distintas, ou que uma é maior/menor que outra, tanto no exemplo do  [[cursos:​planeco:​roteiro:​02-hipot#​Tutorial Árvores do Mangue|]], quanto no exercício [[cursos:​planeco:​roteiro:​02-hipot#​Exercício| Altura dos alunos]]. Em ambos os casos estávamos comparando médias de dois grupos distintos, por exemplo, dois tipos de solos no mangue ou gênero dos alunos. O nosso procedimento foi análogo ao teste frequentista ​ **//t// de Student**, mas a forma de obter o //​**p-valor**//​ foi diferente. Nos procedimentos anteriores, simulamos o cenário nulo e comparamos o valor observado (diferença das médias) com a distribuição de probabilidades obtidas por meio dessa simulação. Na abordagem __clássica__ do teste frequentista **//t// de Student**, ​o valor observado ​ (diferença das médias) ​é comparado ​com uma distribuição ​estatística ​//​**t**// ​conhecida previamenteque foi desenvolvida pelo matemático William Gosset.+ 
 +<WRAP center round box 80%> 
 +**//__Aula Gravada -  Anova: Partição da Variaçao__//​** 
 + 
 + 
 +Esssa video aula foi gravada durante a pandemia e permanece aqui como material de referência e consulta 
 + 
 +{{ youtube>​pQ5E6YXQR5I |}} 
 +</​WRAP>​ 
 + 
 + 
 + 
 +Na aula sobre [[cursos:​planeco:​roteiro:​02-hipot|teste de hipótese]] utilizamos técnicas de Monte Carlo para testar a hipótese de que duas médias são distintas, ou que uma é maior/menor que outra, tanto no exemplo do  [[cursos:​planeco:​roteiro:​02-hipot#​Tutorial Árvores do Mangue|]], quanto no exercício [[cursos:​planeco:​roteiro:​02-hipot#​Exercício| Altura dos alunos]]. Em ambos os casos estávamos comparando médias de dois grupos distintos, por exemplo, dois tipos de solos no mangue ou gênero dos alunos. O nosso procedimento foi análogo ao teste frequentista ​ **//t// de Student**, mas a forma de obter o //​**p-valor**//​ foi diferente. Nos procedimentos anteriores, simulamos o cenário nulo e comparamos o valor observado (diferença das médias) com a distribuição de probabilidades obtidas por meio dessa simulação. Na abordagem __clássica__ do teste frequentista **//t// de Student**, ​a estatística de interesse ​ //t// da amostra ​é comparada ​com distribuição ​probabilística ​//**t**// , desenvolvida pelo matemático ​britânico ​William Gosset.
 <WRAP center round important 70%> <WRAP center round important 70%>
  
Linha 30: Linha 42:
  
  
-A //Análise de Variância//​ (** ANOVA **) é uma generalização do teste **//t// de Student**, desenvolvida ​por [[https://​en.wikipedia.org/​wiki/​Ronald_Fisher|Ronald Fisher]] há mais de 100 anos (1918). Apesar ​de idoso, é um teste muito popular, talvez o mais utilizado em ciências naturais. A hipótese subjacente da ANOVA é de diferença entre as médias de 2 ou mais grupos. O procedimento para o cálculo da estatística da ANOVA, chamada de  **//F//**, está associado à partição da variância dos dados, por isso o nome. Uma maneira clássica de apresentar o resultado do teste de **ANOVA** é a a chamada **tabela de ANOVA**. Tanto a partição da variação quanto a **tabela de ANOVA** serão utilizados para avaliarmos outros modelos durante o curso, por isso é importante entender bem o que é a partição da variação e o que a tabela de ANOVA nos apresenta. ​+A //Análise de Variância//​ (** ANOVA **), desenvolvida ​pelo também britânico ​[[https://​en.wikipedia.org/​wiki/​Ronald_Fisher|Ronald Fisher]] há mais de 100 anos (1918), é uma generalização do teste **//t// de Student**. Apesar ​da idade avançada, é um teste muito popular, talvez o mais utilizado em ciências naturais ​nas últimas décadas. A hipótese subjacente da ANOVA é de diferença entre as médias de 2 ou mais grupos. O procedimento para o cálculo da estatística da ANOVA, chamada de  **//F//**, está associado à partição da variância dos dados, por isso o nome. Uma maneira clássica de apresentar o resultado do teste de **ANOVA** é a a chamada **tabela de ANOVA**. Tanto a partição da variação quanto a **tabela de ANOVA** serão utilizados para avaliarmos outros modelos durante o curso, por isso é importante entender bem o que é a partição da variação e o que a tabela de ANOVA nos apresenta. ​
  
 \\ \\
Linha 57: Linha 69:
 A representação gráfica desses dados pode ser feita em um boxplot. A representação gráfica desses dados pode ser feita em um boxplot.
  
-{{ :​cursos:​planeco:​roteiro:​solosAnova.png?​400 ​ |}}+<WRAP center round box 60%> 
 +{{ :​cursos:​planeco:​roteiro:​boxplotAnova.png?400 |}} 
 + 
 +</​WRAP>​
  
 É possível notar que há uma grande variação na produtividade entre os solos e também muita variação dentro de um mesmo tipo de solo. Para ter alguma confiança para afirmar que o solo influencia a produtividade,​ podemos nos basear na variação dos dados e na partição em seus componentes,​ ou seja, dentro de cada grupo (ou intra grupo) e entre os grupos do tratamento (tipos de solos). Primeiro vamos definir o que é a variação total dos dados. É possível notar que há uma grande variação na produtividade entre os solos e também muita variação dentro de um mesmo tipo de solo. Para ter alguma confiança para afirmar que o solo influencia a produtividade,​ podemos nos basear na variação dos dados e na partição em seus componentes,​ ou seja, dentro de cada grupo (ou intra grupo) e entre os grupos do tratamento (tipos de solos). Primeiro vamos definir o que é a variação total dos dados.
Linha 85: Linha 100:
 </​WRAP>​ </​WRAP>​
  
-Para quantificar essa variação utilizamos a soma quadrática intra grupo, obtida a partir desses valores de desvios ((resíduos ou erros)), ou seja, a diferença entre cada valor observado em relação à média do seu grupo, ​elevada ​ao quadrado e posteriormente ​somadas. ​ +Para quantificar essa variação utilizamos a soma quadrática intra grupo, obtida a partir desses valores de desvios ((resíduos ou erros)). Basta pegar a diferença entre cada valor observado em relação à média do seu grupo, ​elevar ​ao quadrado e posteriormente ​somar esses valores, como descrito na formula a seguir: ​ 
    
 $$ SQ_{"​intra"​} = \sum_{i=1}^k\sum_{j=1}^n ​ (y_{i,j} - \bar{y}_{i})^2 $$ $$ SQ_{"​intra"​} = \sum_{i=1}^k\sum_{j=1}^n ​ (y_{i,j} - \bar{y}_{i})^2 $$
Linha 112: Linha 127:
 A grande sacada de Sir Fisher foi entender que essa partição da variância aditiva pode ser utilizada para compor uma estatística que representa o quanto a variação do efeito do tratamento é maior que a variação não explicada pelo tratamento. ​ A estatística F é definida pela razão do valor médio da variação entre grupos e o valor médio da variação intra grupos. ​ A grande sacada de Sir Fisher foi entender que essa partição da variância aditiva pode ser utilizada para compor uma estatística que representa o quanto a variação do efeito do tratamento é maior que a variação não explicada pelo tratamento. ​ A estatística F é definida pela razão do valor médio da variação entre grupos e o valor médio da variação intra grupos. ​
  
-Os valores médios de variação (variância) são calculados dividindo as somas quadráticas pelos graus de liberdade. No caso da variação entre grupos do nosso exemplo o total de graus de liberdades é igual ao número de grupos no tratamento menos 1 (em função do parâmetro __média geral__ usado para o seu cálculo). Na variação intra grupos o total de graus de liberdade é igual ao número de observações (30 valores usados para o seu cálculo) menos 3 (número de parâmetros utilizados para o seu cálculo, as médias dos grupos).+Os valores médios de variação (variância) são calculados dividindo as somas quadráticas pelos graus de liberdade. No caso da variação entre grupos do nosso exemplo o total de graus de liberdades é igual ao número de grupos no tratamento menos 1 (em função do parâmetro __média geral__ usado para o seu cálculo). Na variação intra grupos o total de graus de liberdade é igual ao número de observações (30 valores usados para o seu cálculo) menos 3 (número de parâmetros utilizados para o seu cálculo, as médias dos grupos), no caso 27.
  
 $$MQ_{"​entre"​} = \frac{SQ_{"​entre"​}}{gl_1}$$ $$MQ_{"​entre"​} = \frac{SQ_{"​entre"​}}{gl_1}$$
Linha 137: Linha 152:
 ==== Coeficiente de determinação ==== ==== Coeficiente de determinação ====
  
-Outra estatística muito utilizada baseada na partição de variação é o coeficiente de determinação, que define o quanto da variabilidade dos dados é explicado pelo fator de interesse, no nosso exemplo, os tipos de solos. O coeficiente de determinação (R²) é calculado pela razão entre a variação explicada e a variação total dos dados. ​+Outra estatística muito utilizadabaseada na partição de variaçãoé o ''​coeficiente de determinação''​. O ''​coeficiente de determinação'' ​define o quanto da variabilidade dos dados é explicado pelo fator de interesse, no nosso exemplo, os tipos de solos. O ''​coeficiente de determinação (R²)'' ​é calculado pela razão entre a variação explicada e a variação total dos dados. ​
  
 $$ R^2 = \frac{SQ_{"​entre"​}}{SQ_{"​entre"​} + SQ_{"​intra"​}} $$ $$ R^2 = \frac{SQ_{"​entre"​}}{SQ_{"​entre"​} + SQ_{"​intra"​}} $$
Linha 171: Linha 186:
 <WRAP center round tip 70%> <WRAP center round tip 70%>
 **__Como calcular o p-valor a partir do F __** **__Como calcular o p-valor a partir do F __**
-  * A função ​//DIST.F// no Excel ou LibreOffice calcula o p-valor a partir da estatística **F** e  graus de liberdade; ​+  * A função ​''​DIST.F'' ​no Excel ou LibreOffice calcula o p-valor a partir da estatística **F** e  graus de liberdade; ​
   * usualmente a função recebe o valor de **F**, seguido dos graus de liberdade entre e intra grupos;   * usualmente a função recebe o valor de **F**, seguido dos graus de liberdade entre e intra grupos;
-  * o resultado da função ​//DIST.F// é a probabilidade cumulativa;​ +  * normalmente ​o resultado da função ​''​DIST.F'' ​é a probabilidade cumulativa, mas fique atento, pode ser a densidade probabilística,​ dependendo do padrão do Excel. Consulte a documentação do [[https://​support.microsoft.com/​pt-br/​office/​dist-f-fun%C3%A7%C3%A3o-dist-f-a887efdc-7c8e-46cb-a74a-f884cd29b25d|''​DIST.F''​ do Excel]] caso tenha dúvida
-  * o p-valor é igual a 1 menos essa probabilidade. ​  +  * no caso do valor retornado seja a probabilidade cumulativa, ​o p-valor é igual a 1 menos essa probabilidade ​((a densidade probabilística não permite o cálculo do p-valor, portanto, é preciso calcular a probabilidade cumulativa e subtrair de um para o cálculo do p-valor)).   
 </​WRAP>​ </​WRAP>​
  
Linha 180: Linha 195:
  
 <WRAP center round tip 70%> <WRAP center round tip 70%>
 +
 **__ ANOVA no Rcmdr __** **__ ANOVA no Rcmdr __**
   * importe os dados apenas com as colunas de dados brutos;   * importe os dados apenas com as colunas de dados brutos;
-  * o menu //​Estatísticas// ​está separado em tipos de estatísticas e qual o parâmetro associado ao teste de hipótese estatístico;​ +  * o menu ''​Statistics'' ​está separado em tipos de estatísticas e qual o parâmetro associado ao teste de hipótese estatístico;​ 
-  * o nosso teste é sobre médias, portanto no sub-menu ​//Médias//+  * o nosso teste é sobre médias, portanto no sub-menu ​''​Mean''​
-  * nele há a opção ​//ANOVA para um fator (one way)...//+  * nele há a opção ​''​Multi-way ANOVA''​...
   * o resultado aparecerá na janela //​Output//​. ​   * o resultado aparecerá na janela //​Output//​. ​
 +
 </​WRAP>​ </​WRAP>​
  
Linha 222: Linha 239:
 \\ \\
 \\ \\
-Inclua os seguintes produtos no formulário ​a seguir ou pelo  ​[[https://​forms.gle/PgV1ZJGaaaQJtbxc6| link do formulário]]+Inclua os seguintes produtos no formulário ​abaixo: 
 +  *  ​[[https://​docs.google.com/​forms/​d/​e/​1FAIpQLSdklx8YfIE31Cp7t2IsN2TL_6m-gChiu6KoAMyIu7RNBJiZaA/viewform?​usp=sf_link| link do formulário]]
  
 1) Para os dados de solos e produtividade (Crawley, 2007): 1) Para os dados de solos e produtividade (Crawley, 2007):
Linha 237: Linha 255:
  
 </​WRAP>​ </​WRAP>​
- 
- 
-{{url>​https://​forms.gle/​PgV1ZJGaaaQJtbxc6}} 
  
 ====== Regressão Linear Simples ====== ====== Regressão Linear Simples ======
Linha 413: Linha 428:
 \\ \\
  
-Vcs agora continuarão a pesquisa sobre o efeito das condições ambientais na produtividade primária de ecossistemas terrestres. Suponha que vcs estão interessados em entender o efeito da temperatura média anual (°C) sobre a produtividade primária líquida (MgC/​ha/​ano). Dado que a temperatura média anual dos ecossistemas terrestres está diretamente relacionada ao comprimento da estação de crescimento,​ a hipótese a ser testada é se a temperatura tem efeito positivo sobre a produtividade. ​ Utilize o conjuntos de dados {{ :​cursos:​planeco:​roteiro:​produtividade_temp.txt |produtividade_temp.txt}}((Caso os dados abram em uma aba do navegador, clique com o botão direito do mouse e utilize o menu "​Salvar link como..."​ ou algo parecido para salvar o arquivo em um diretório do seu computador.)),​ faça a regressão linear simples, interprete os resultados e avalie o atendimento das premissas do modelo. Preencha o seguinte [[https://​docs.google.com/​forms/​d/​e/​1FAIpQLSdgCuAhTbKoidM5JBpJoQIvYYJQNLIvGPBIyb5hMRB-pw5htw/​viewform?​usp=pp_url| formulário]] para registrar suas respostas.+Vcs agora continuarão a pesquisa sobre o efeito das condições ambientais na produtividade primária de ecossistemas terrestres. Suponha que vcs estão interessados em entender o efeito da temperatura média anual (°C) sobre a produtividade primária líquida (MgC/​ha/​ano). Dado que a temperatura média anual dos ecossistemas terrestres está diretamente relacionada ao comprimento da estação de crescimento,​ a hipótese ​científica ​a ser testada é se a temperatura tem efeito positivo sobre a produtividade. ​ Utilize o conjuntos de dados {{ :​cursos:​planeco:​roteiro:​produtividade_temp.txt |produtividade_temp.txt}}((Caso os dados abram em uma aba do navegador, clique com o botão direito do mouse e utilize o menu "​Salvar link como..."​ ou algo parecido para salvar o arquivo em um diretório do seu computador.)),​ faça a regressão linear simples, interprete os resultados e avalie o atendimento das premissas do modelo. Preencha o seguinte [[https://​docs.google.com/​forms/​d/​e/​1FAIpQLSdV6OpfCM1sAetfQxeap_uYDxC5xsCm4GjMGrH1wBcI1gEI3Q/​viewform?​usp=sf_link| formulário]] para registrar suas respostas.
  
  
cursos/planeco/roteiro/07-class_base.1648072433.txt.gz · Última modificação: 2022/03/23 18:53 por adalardo