Ferramentas do usuário

Ferramentas do site


cursos:planeco:roteiro:07-class_base

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anterior Revisão anterior
Próxima revisão
Revisão anterior
Próxima revisão Ambos lados da revisão seguinte
cursos:planeco:roteiro:07-class_base [2022/03/23 18:46]
ctcastanho
cursos:planeco:roteiro:07-class_base [2024/02/26 17:41]
127.0.0.1 edição externa
Linha 3: Linha 3:
 ====== Testes Clássicos ====== ====== Testes Clássicos ======
  
-Os testes clássicos estatísticos estão inseridos no escopo da estatística frequentista ou inferência frequentista. Nessa abordagem a inferência ​é baseada na frequência ​ou proporção dos dados amostrados+Os testes clássicos estatísticos estão inseridos no escopo da estatística frequentista ou inferência frequentista. Nessa abordagem a probabilidade ​é considerada uma frequência e a inferencia está baseada na frequência ​com que eventos ocorrem nos dados coletados
  
 /* /*
Linha 22: Linha 22:
 ====== Anova ====== ====== Anova ======
  
-Na aula sobre [[cursos:​planeco:​roteiro:​02-hipot|teste de hipótese]] utilizamos técnicas de Monte Carlo para testar a hipótese de que duas médias são distintas, ou que uma é maior/menor que outra, tanto no exemplo do  [[cursos:​planeco:​roteiro:​02-hipot#​Tutorial Árvores do Mangue|]], quanto no exercício [[cursos:​planeco:​roteiro:​02-hipot#​Exercício| Altura dos alunos]]. Em ambos os casos estávamos comparando médias de dois grupos distintos, por exemplo, dois tipos de solos no mangue ou gênero dos alunos. O nosso procedimento foi análogo ao teste frequentista ​ **//t// de Student**, mas a forma de obter o //​**p-valor**//​ foi diferente. Nos procedimentos anteriores, simulamos o cenário nulo e comparamos o valor observado (diferença das médias) com a distribuição de probabilidades obtidas por meio dessa simulação. Na abordagem __clássica__ do teste frequentista **//t// de Student**, ​o valor observado ​ (diferença das médias) ​é comparado ​com uma distribuição ​estatística ​//​**t**// ​conhecida previamenteque foi desenvolvida pelo matemático William Gosset.+ 
 +<WRAP center round box 80%> 
 +**//__Aula Gravada -  Anova: Partição da Variaçao__//​** 
 + 
 + 
 +Esssa video aula foi gravada durante a pandemia e permanece aqui como material de referência e consulta 
 + 
 +{{ youtube>​pQ5E6YXQR5I |}} 
 +</​WRAP>​ 
 + 
 + 
 + 
 +Na aula sobre [[cursos:​planeco:​roteiro:​02-hipot|teste de hipótese]] utilizamos técnicas de Monte Carlo para testar a hipótese de que duas médias são distintas, ou que uma é maior/menor que outra, tanto no exemplo do  [[cursos:​planeco:​roteiro:​02-hipot#​Tutorial Árvores do Mangue|]], quanto no exercício [[cursos:​planeco:​roteiro:​02-hipot#​Exercício| Altura dos alunos]]. Em ambos os casos estávamos comparando médias de dois grupos distintos, por exemplo, dois tipos de solos no mangue ou gênero dos alunos. O nosso procedimento foi análogo ao teste frequentista ​ **//t// de Student**, mas a forma de obter o //​**p-valor**//​ foi diferente. Nos procedimentos anteriores, simulamos o cenário nulo e comparamos o valor observado (diferença das médias) com a distribuição de probabilidades obtidas por meio dessa simulação. Na abordagem __clássica__ do teste frequentista **//t// de Student**, ​a estatística de interesse ​ //t// da amostra ​é comparada ​com distribuição ​probabilística ​//**t**// , desenvolvida pelo matemático ​britânico ​William Gosset.
 <WRAP center round important 70%> <WRAP center round important 70%>
  
Linha 57: Linha 69:
 A representação gráfica desses dados pode ser feita em um boxplot. A representação gráfica desses dados pode ser feita em um boxplot.
  
-{{ :​cursos:​planeco:​roteiro:​solosAnova.png?​400 ​ |}}+<WRAP center round box 60%> 
 +{{ :​cursos:​planeco:​roteiro:​boxplotAnova.png?400 |}} 
 + 
 +</​WRAP>​
  
 É possível notar que há uma grande variação na produtividade entre os solos e também muita variação dentro de um mesmo tipo de solo. Para ter alguma confiança para afirmar que o solo influencia a produtividade,​ podemos nos basear na variação dos dados e na partição em seus componentes,​ ou seja, dentro de cada grupo (ou intra grupo) e entre os grupos do tratamento (tipos de solos). Primeiro vamos definir o que é a variação total dos dados. É possível notar que há uma grande variação na produtividade entre os solos e também muita variação dentro de um mesmo tipo de solo. Para ter alguma confiança para afirmar que o solo influencia a produtividade,​ podemos nos basear na variação dos dados e na partição em seus componentes,​ ou seja, dentro de cada grupo (ou intra grupo) e entre os grupos do tratamento (tipos de solos). Primeiro vamos definir o que é a variação total dos dados.
Linha 77: Linha 92:
  
 {{ :​cursos:​planeco:​roteiro:​varIntraAnova.png?​500 ​ |}} {{ :​cursos:​planeco:​roteiro:​varIntraAnova.png?​500 ​ |}}
-A variação intra grupo é a variação que não está relacionada ao efeito do tratamento (no caso, os tipos de solo). Essa variação é baseada nos desvios dos valores observados em relação à média do nível de tratamento (tipo de solo ou grupo) representada pelos segmentos horizontais coloridos. Os desvios estão representados na figura acima pelas barras cinza verticais. ​+A variação intra grupo é a variação que não está relacionada ao efeito do tratamento (no caso, os tipos de solo). Essa variação é baseada nos desvios dos valores observados em relação à média do nível de tratamento (tipo de solo ou grupo) representada pelos segmentos horizontais coloridos. Os respectivos ​desvios estão representados na figura acima pelas barras cinza verticais. ​
  
 <WRAP center round important 90%> <WRAP center round important 90%>
-Mais à frente iremos chamar esses **desvios** de **resíduos** e muitos estatísticos também os chamam de **erro**. Não se assustem, eles significam a mesma coisa e causam confusão, mesmo. ​Para resumir, ​estamos ​falando da variação não explicada pelos tratamentos. ​+Entendemos desvios como qualquer variação em relação a alguma medida de tendencia central, no caso estamos tratando dessa variação em relação a diferentes médias (grande média e média dos grupos). 
 +Mais à frente iremos chamar esses **desvios** ​das observações em relação às  médias do seu grupo de **resíduos** e muitos estatísticos também os chamam ​essa variação ​de **erro**. Não se assustem, eles significam a mesma coisa e causam confusão, mesmo. ​ O importante é entender que estamos ​nos referindo à variação ​que não é explicada pelos tratamentos. ​
  
 </​WRAP>​ </​WRAP>​
  
-Para quantificar essa variação utilizamos a soma quadrática intra grupo, obtida a partir desses valores de desvios ((resíduos ou erros)), ou seja, a diferença entre cada valor observado em relação à média do seu grupo, ​elevada ​ao quadrado e posteriormente ​somadas. ​ +Para quantificar essa variação utilizamos a soma quadrática intra grupo, obtida a partir desses valores de desvios ((resíduos ou erros)). Basta pegar a diferença entre cada valor observado em relação à média do seu grupo, ​elevar ​ao quadrado e posteriormente ​somar esses valores, como descrito na formula a seguir: ​ 
    
 $$ SQ_{"​intra"​} = \sum_{i=1}^k\sum_{j=1}^n ​ (y_{i,j} - \bar{y}_{i})^2 $$ $$ SQ_{"​intra"​} = \sum_{i=1}^k\sum_{j=1}^n ​ (y_{i,j} - \bar{y}_{i})^2 $$
Linha 111: Linha 127:
 A grande sacada de Sir Fisher foi entender que essa partição da variância aditiva pode ser utilizada para compor uma estatística que representa o quanto a variação do efeito do tratamento é maior que a variação não explicada pelo tratamento. ​ A estatística F é definida pela razão do valor médio da variação entre grupos e o valor médio da variação intra grupos. ​ A grande sacada de Sir Fisher foi entender que essa partição da variância aditiva pode ser utilizada para compor uma estatística que representa o quanto a variação do efeito do tratamento é maior que a variação não explicada pelo tratamento. ​ A estatística F é definida pela razão do valor médio da variação entre grupos e o valor médio da variação intra grupos. ​
  
-Os valores médios de variação (variância) são calculados dividindo as somas quadráticas pelos graus de liberdade. No caso da variação entre grupos do nosso exemplo o total de graus de liberdades é igual ao número de grupos no tratamento menos 1 (em função do parâmetro __média geral__ usado para o seu cálculo). Na variação intra grupos o total de graus de liberdade é igual ao número de observações (30 valores usados para o seu cálculo) menos 3 (número de parâmetros utilizados para o seu cálculo, as médias dos grupos).+Os valores médios de variação (variância) são calculados dividindo as somas quadráticas pelos graus de liberdade. No caso da variação entre grupos do nosso exemplo o total de graus de liberdades é igual ao número de grupos no tratamento menos 1 (em função do parâmetro __média geral__ usado para o seu cálculo). Na variação intra grupos o total de graus de liberdade é igual ao número de observações (30 valores usados para o seu cálculo) menos 3 (número de parâmetros utilizados para o seu cálculo, as médias dos grupos), no caso 27.
  
 $$MQ_{"​entre"​} = \frac{SQ_{"​entre"​}}{gl_1}$$ $$MQ_{"​entre"​} = \frac{SQ_{"​entre"​}}{gl_1}$$
Linha 136: Linha 152:
 ==== Coeficiente de determinação ==== ==== Coeficiente de determinação ====
  
-Outra estatística muito utilizada baseada na partição de variação é o coeficiente de determinação, que define o quanto da variabilidade dos dados é explicado pelo fator de interesse, no nosso exemplo, os tipos de solos. O coeficiente de determinação (R²) é calculado pela razão entre a variação explicada e a variação total dos dados. ​+Outra estatística muito utilizadabaseada na partição de variaçãoé o ''​coeficiente de determinação''​. O ''​coeficiente de determinação'' ​define o quanto da variabilidade dos dados é explicado pelo fator de interesse, no nosso exemplo, os tipos de solos. O ''​coeficiente de determinação (R²)'' ​é calculado pela razão entre a variação explicada e a variação total dos dados. ​
  
 $$ R^2 = \frac{SQ_{"​entre"​}}{SQ_{"​entre"​} + SQ_{"​intra"​}} $$ $$ R^2 = \frac{SQ_{"​entre"​}}{SQ_{"​entre"​} + SQ_{"​intra"​}} $$
Linha 170: Linha 186:
 <WRAP center round tip 70%> <WRAP center round tip 70%>
 **__Como calcular o p-valor a partir do F __** **__Como calcular o p-valor a partir do F __**
-  * A função ​//DIST.F// no Excel ou LibreOffice calcula o p-valor a partir da estatística **F** e  graus de liberdade; ​+  * A função ​''​DIST.F'' ​no Excel ou LibreOffice calcula o p-valor a partir da estatística **F** e  graus de liberdade; ​
   * usualmente a função recebe o valor de **F**, seguido dos graus de liberdade entre e intra grupos;   * usualmente a função recebe o valor de **F**, seguido dos graus de liberdade entre e intra grupos;
-  * o resultado da função ​//DIST.F// é a probabilidade cumulativa;​ +  * normalmente ​o resultado da função ​''​DIST.F'' ​é a probabilidade cumulativa, mas fique atento, pode ser a densidade probabilística,​ dependendo do padrão do Excel. Consulte a documentação do [[https://​support.microsoft.com/​pt-br/​office/​dist-f-fun%C3%A7%C3%A3o-dist-f-a887efdc-7c8e-46cb-a74a-f884cd29b25d|''​DIST.F''​ do Excel]] caso tenha dúvida
-  * o p-valor é igual a 1 menos essa probabilidade. ​  +  * no caso do valor retornado seja a probabilidade cumulativa, ​o p-valor é igual a 1 menos essa probabilidade ​((a densidade probabilística não permite o cálculo do p-valor, portanto, é preciso calcular a probabilidade cumulativa e subtrair de um para o cálculo do p-valor)).   
 </​WRAP>​ </​WRAP>​
  
Linha 179: Linha 195:
  
 <WRAP center round tip 70%> <WRAP center round tip 70%>
 +
 **__ ANOVA no Rcmdr __** **__ ANOVA no Rcmdr __**
   * importe os dados apenas com as colunas de dados brutos;   * importe os dados apenas com as colunas de dados brutos;
-  * o menu //​Estatísticas// ​está separado em tipos de estatísticas e qual o parâmetro associado ao teste de hipótese estatístico;​ +  * o menu ''​Statistics'' ​está separado em tipos de estatísticas e qual o parâmetro associado ao teste de hipótese estatístico;​ 
-  * o nosso teste é sobre médias, portanto no sub-menu ​//Médias//+  * o nosso teste é sobre médias, portanto no sub-menu ​''​Mean''​
-  * nele há a opção ​//ANOVA para um fator (one way)...//+  * nele há a opção ​''​Multi-way ANOVA''​...
   * o resultado aparecerá na janela //​Output//​. ​   * o resultado aparecerá na janela //​Output//​. ​
 +
 </​WRAP>​ </​WRAP>​
  
Linha 221: Linha 239:
 \\ \\
 \\ \\
-Inclua os seguintes produtos no formulário a seguir ou pelo  [[https://forms.gle/PgV1ZJGaaaQJtbxc6| link do formulário]]+Inclua os seguintes produtos no formulário a seguir ou pelo  [[https://docs.google.com/​forms/​d/​e/​1FAIpQLSdFL6jKLBe9YmbRlQI9MD04Swl8vPWZHGjxXlZSXulerfT2DA/viewform?​usp=pp_url| link do formulário]]
  
 1) Para os dados de solos e produtividade (Crawley, 2007): 1) Para os dados de solos e produtividade (Crawley, 2007):
Linha 238: Linha 256:
  
  
-{{url>​https://​forms.gle/PgV1ZJGaaaQJtbxc6}}+{{url>​https://​docs.google.com/​forms/​d/​e/​1FAIpQLSdFL6jKLBe9YmbRlQI9MD04Swl8vPWZHGjxXlZSXulerfT2DA/viewform?​usp=pp_url}}
  
 ====== Regressão Linear Simples ====== ====== Regressão Linear Simples ======
Linha 412: Linha 430:
 \\ \\
  
-Vcs agora continuarão a pesquisa sobre o efeito das condições ambientais na produtividade primária de ecossistemas terrestres. Suponha que vcs estão interessados em entender o efeito da temperatura média anual (°C) sobre a produtividade primária líquida (MgC/​ha/​ano). Dado que a temperatura média anual dos ecossistemas terrestres está diretamente relacionada ao comprimento da estação de crescimento,​ a hipótese a ser testada é se a temperatura tem efeito positivo sobre a produtividade. ​ Utilize o conjuntos de dados {{ :​cursos:​planeco:​roteiro:​produtividade_temp.txt |produtividade_temp.txt}}((Caso os dados abram em uma aba do navegador, clique com o botão direito do mouse e utilize o menu "​Salvar link como..."​ ou algo parecido para salvar o arquivo em um diretório do seu computador.)),​ faça a regressão linear simples, interprete os resultados e avalie o atendimento das premissas do modelo. Preencha o seguinte [[https://​docs.google.com/​forms/​d/​e/​1FAIpQLSdgCuAhTbKoidM5JBpJoQIvYYJQNLIvGPBIyb5hMRB-pw5htw/​viewform?​usp=pp_url| formulário]] para registrar suas respostas.+Vcs agora continuarão a pesquisa sobre o efeito das condições ambientais na produtividade primária de ecossistemas terrestres. Suponha que vcs estão interessados em entender o efeito da temperatura média anual (°C) sobre a produtividade primária líquida (MgC/​ha/​ano). Dado que a temperatura média anual dos ecossistemas terrestres está diretamente relacionada ao comprimento da estação de crescimento,​ a hipótese ​científica ​a ser testada é se a temperatura tem efeito positivo sobre a produtividade. ​ Utilize o conjuntos de dados {{ :​cursos:​planeco:​roteiro:​produtividade_temp.txt |produtividade_temp.txt}}((Caso os dados abram em uma aba do navegador, clique com o botão direito do mouse e utilize o menu "​Salvar link como..."​ ou algo parecido para salvar o arquivo em um diretório do seu computador.)),​ faça a regressão linear simples, interprete os resultados e avalie o atendimento das premissas do modelo. Preencha o seguinte [[https://​docs.google.com/​forms/​d/​e/​1FAIpQLSdV6OpfCM1sAetfQxeap_uYDxC5xsCm4GjMGrH1wBcI1gEI3Q/​viewform?​usp=sf_link| formulário]] para registrar suas respostas.
  
  
cursos/planeco/roteiro/07-class_base.txt · Última modificação: 2024/02/26 18:02 (edição externa)