Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anterior Revisão anterior Próxima revisão | Revisão anterior | ||
cursos:planeco:roteiro:07-class_base [2022/03/23 18:57] adalardo [Variação intra grupo] |
cursos:planeco:roteiro:07-class_base [2024/02/26 18:02] (atual) |
||
---|---|---|---|
Linha 3: | Linha 3: | ||
====== Testes Clássicos ====== | ====== Testes Clássicos ====== | ||
- | Os testes clássicos estatísticos estão inseridos no escopo da estatística frequentista ou inferência frequentista. Nessa abordagem a inferência é baseada na frequência ou proporção dos dados amostrados. | + | Os testes clássicos estatísticos estão inseridos no escopo da estatística frequentista ou inferência frequentista. Nessa abordagem a probabilidade é considerada uma frequência e a inferencia está baseada na frequência com que eventos ocorrem nos dados coletados. |
/* | /* | ||
Linha 22: | Linha 22: | ||
====== Anova ====== | ====== Anova ====== | ||
- | Na aula sobre [[cursos:planeco:roteiro:02-hipot|teste de hipótese]] utilizamos técnicas de Monte Carlo para testar a hipótese de que duas médias são distintas, ou que uma é maior/menor que outra, tanto no exemplo do [[cursos:planeco:roteiro:02-hipot#Tutorial Árvores do Mangue|]], quanto no exercício [[cursos:planeco:roteiro:02-hipot#Exercício| Altura dos alunos]]. Em ambos os casos estávamos comparando médias de dois grupos distintos, por exemplo, dois tipos de solos no mangue ou gênero dos alunos. O nosso procedimento foi análogo ao teste frequentista **//t// de Student**, mas a forma de obter o //**p-valor**// foi diferente. Nos procedimentos anteriores, simulamos o cenário nulo e comparamos o valor observado (diferença das médias) com a distribuição de probabilidades obtidas por meio dessa simulação. Na abordagem __clássica__ do teste frequentista **//t// de Student**, o valor observado (diferença das médias) é comparado com uma distribuição estatística //**t**// conhecida previamente, que foi desenvolvida pelo matemático William Gosset. | + | |
+ | <WRAP center round box 80%> | ||
+ | **//__Aula Gravada - Anova: Partição da Variaçao__//** | ||
+ | |||
+ | |||
+ | Esssa video aula foi gravada durante a pandemia e permanece aqui como material de referência e consulta | ||
+ | |||
+ | {{ youtube>pQ5E6YXQR5I |}} | ||
+ | </WRAP> | ||
+ | |||
+ | |||
+ | |||
+ | Na aula sobre [[cursos:planeco:roteiro:02-hipot|teste de hipótese]] utilizamos técnicas de Monte Carlo para testar a hipótese de que duas médias são distintas, ou que uma é maior/menor que outra, tanto no exemplo do [[cursos:planeco:roteiro:02-hipot#Tutorial Árvores do Mangue|]], quanto no exercício [[cursos:planeco:roteiro:02-hipot#Exercício| Altura dos alunos]]. Em ambos os casos estávamos comparando médias de dois grupos distintos, por exemplo, dois tipos de solos no mangue ou gênero dos alunos. O nosso procedimento foi análogo ao teste frequentista **//t// de Student**, mas a forma de obter o //**p-valor**// foi diferente. Nos procedimentos anteriores, simulamos o cenário nulo e comparamos o valor observado (diferença das médias) com a distribuição de probabilidades obtidas por meio dessa simulação. Na abordagem __clássica__ do teste frequentista **//t// de Student**, a estatística de interesse //t// da amostra é comparada com a distribuição probabilística //**t**// , desenvolvida pelo matemático britânico William Gosset. | ||
<WRAP center round important 70%> | <WRAP center round important 70%> | ||
Linha 30: | Linha 42: | ||
- | A //Análise de Variância// (** ANOVA **) é uma generalização do teste **//t// de Student**, desenvolvida por [[https://en.wikipedia.org/wiki/Ronald_Fisher|Ronald Fisher]] há mais de 100 anos (1918). Apesar de idoso, é um teste muito popular, talvez o mais utilizado em ciências naturais. A hipótese subjacente da ANOVA é de diferença entre as médias de 2 ou mais grupos. O procedimento para o cálculo da estatística da ANOVA, chamada de **//F//**, está associado à partição da variância dos dados, por isso o nome. Uma maneira clássica de apresentar o resultado do teste de **ANOVA** é a a chamada **tabela de ANOVA**. Tanto a partição da variação quanto a **tabela de ANOVA** serão utilizados para avaliarmos outros modelos durante o curso, por isso é importante entender bem o que é a partição da variação e o que a tabela de ANOVA nos apresenta. | + | A //Análise de Variância// (** ANOVA **), desenvolvida pelo também britânico [[https://en.wikipedia.org/wiki/Ronald_Fisher|Ronald Fisher]] há mais de 100 anos (1918), é uma generalização do teste **//t// de Student**. Apesar da idade avançada, é um teste muito popular, talvez o mais utilizado em ciências naturais nas últimas décadas. A hipótese subjacente da ANOVA é de diferença entre as médias de 2 ou mais grupos. O procedimento para o cálculo da estatística da ANOVA, chamada de **//F//**, está associado à partição da variância dos dados, por isso o nome. Uma maneira clássica de apresentar o resultado do teste de **ANOVA** é a a chamada **tabela de ANOVA**. Tanto a partição da variação quanto a **tabela de ANOVA** serão utilizados para avaliarmos outros modelos durante o curso, por isso é importante entender bem o que é a partição da variação e o que a tabela de ANOVA nos apresenta. |
\\ | \\ | ||
Linha 57: | Linha 69: | ||
A representação gráfica desses dados pode ser feita em um boxplot. | A representação gráfica desses dados pode ser feita em um boxplot. | ||
- | {{ :cursos:planeco:roteiro:solosAnova.png?400 |}} | + | <WRAP center round box 60%> |
+ | {{ :cursos:planeco:roteiro:boxplotAnova.png?400 |}} | ||
+ | |||
+ | </WRAP> | ||
É possível notar que há uma grande variação na produtividade entre os solos e também muita variação dentro de um mesmo tipo de solo. Para ter alguma confiança para afirmar que o solo influencia a produtividade, podemos nos basear na variação dos dados e na partição em seus componentes, ou seja, dentro de cada grupo (ou intra grupo) e entre os grupos do tratamento (tipos de solos). Primeiro vamos definir o que é a variação total dos dados. | É possível notar que há uma grande variação na produtividade entre os solos e também muita variação dentro de um mesmo tipo de solo. Para ter alguma confiança para afirmar que o solo influencia a produtividade, podemos nos basear na variação dos dados e na partição em seus componentes, ou seja, dentro de cada grupo (ou intra grupo) e entre os grupos do tratamento (tipos de solos). Primeiro vamos definir o que é a variação total dos dados. | ||
Linha 112: | Linha 127: | ||
A grande sacada de Sir Fisher foi entender que essa partição da variância aditiva pode ser utilizada para compor uma estatística que representa o quanto a variação do efeito do tratamento é maior que a variação não explicada pelo tratamento. A estatística F é definida pela razão do valor médio da variação entre grupos e o valor médio da variação intra grupos. | A grande sacada de Sir Fisher foi entender que essa partição da variância aditiva pode ser utilizada para compor uma estatística que representa o quanto a variação do efeito do tratamento é maior que a variação não explicada pelo tratamento. A estatística F é definida pela razão do valor médio da variação entre grupos e o valor médio da variação intra grupos. | ||
- | Os valores médios de variação (variância) são calculados dividindo as somas quadráticas pelos graus de liberdade. No caso da variação entre grupos do nosso exemplo o total de graus de liberdades é igual ao número de grupos no tratamento menos 1 (em função do parâmetro __média geral__ usado para o seu cálculo). Na variação intra grupos o total de graus de liberdade é igual ao número de observações (30 valores usados para o seu cálculo) menos 3 (número de parâmetros utilizados para o seu cálculo, as médias dos grupos). | + | Os valores médios de variação (variância) são calculados dividindo as somas quadráticas pelos graus de liberdade. No caso da variação entre grupos do nosso exemplo o total de graus de liberdades é igual ao número de grupos no tratamento menos 1 (em função do parâmetro __média geral__ usado para o seu cálculo). Na variação intra grupos o total de graus de liberdade é igual ao número de observações (30 valores usados para o seu cálculo) menos 3 (número de parâmetros utilizados para o seu cálculo, as médias dos grupos), no caso 27. |
MQ_{"entre"} = \frac{SQ_{"entre"}}{gl_1} | MQ_{"entre"} = \frac{SQ_{"entre"}}{gl_1} | ||
Linha 137: | Linha 152: | ||
==== Coeficiente de determinação ==== | ==== Coeficiente de determinação ==== | ||
- | Outra estatística muito utilizada baseada na partição de variação é o coeficiente de determinação, que define o quanto da variabilidade dos dados é explicado pelo fator de interesse, no nosso exemplo, os tipos de solos. O coeficiente de determinação (R²) é calculado pela razão entre a variação explicada e a variação total dos dados. | + | Outra estatística muito utilizada, baseada na partição de variação, é o ''coeficiente de determinação''. O ''coeficiente de determinação'' define o quanto da variabilidade dos dados é explicado pelo fator de interesse, no nosso exemplo, os tipos de solos. O ''coeficiente de determinação (R²)'' é calculado pela razão entre a variação explicada e a variação total dos dados. |
R^2 = \frac{SQ_{"entre"}}{SQ_{"entre"} + SQ_{"intra"}} | R^2 = \frac{SQ_{"entre"}}{SQ_{"entre"} + SQ_{"intra"}} | ||
Linha 171: | Linha 186: | ||
<WRAP center round tip 70%> | <WRAP center round tip 70%> | ||
**__Como calcular o p-valor a partir do F __** | **__Como calcular o p-valor a partir do F __** | ||
- | * A função //DIST.F// no Excel ou LibreOffice calcula o p-valor a partir da estatística **F** e graus de liberdade; | + | * A função ''DIST.F'' no Excel ou LibreOffice calcula o p-valor a partir da estatística **F** e graus de liberdade; |
* usualmente a função recebe o valor de **F**, seguido dos graus de liberdade entre e intra grupos; | * usualmente a função recebe o valor de **F**, seguido dos graus de liberdade entre e intra grupos; | ||
- | * o resultado da função //DIST.F// é a probabilidade cumulativa; | + | * normalmente o resultado da função ''DIST.F'' é a probabilidade cumulativa, mas fique atento, pode ser a densidade probabilística, dependendo do padrão do Excel. Consulte a documentação do [[https://support.microsoft.com/pt-br/office/dist-f-fun%C3%A7%C3%A3o-dist-f-a887efdc-7c8e-46cb-a74a-f884cd29b25d|''DIST.F'' do Excel]] caso tenha dúvida; |
- | * o p-valor é igual a 1 menos essa probabilidade. | + | * no caso do valor retornado seja a probabilidade cumulativa, o p-valor é igual a 1 menos essa probabilidade ((a densidade probabilística não permite o cálculo do p-valor, portanto, é preciso calcular a probabilidade cumulativa e subtrair de um para o cálculo do p-valor)). |
</WRAP> | </WRAP> | ||
Linha 180: | Linha 195: | ||
<WRAP center round tip 70%> | <WRAP center round tip 70%> | ||
+ | |||
**__ ANOVA no Rcmdr __** | **__ ANOVA no Rcmdr __** | ||
* importe os dados apenas com as colunas de dados brutos; | * importe os dados apenas com as colunas de dados brutos; | ||
- | * o menu //Estatísticas// está separado em tipos de estatísticas e qual o parâmetro associado ao teste de hipótese estatístico; | + | * o menu ''Statistics'' está separado em tipos de estatísticas e qual o parâmetro associado ao teste de hipótese estatístico; |
- | * o nosso teste é sobre médias, portanto no sub-menu //Médias//; | + | * o nosso teste é sobre médias, portanto no sub-menu ''Mean''; |
- | * nele há a opção //ANOVA para um fator (one way)...// | + | * nele há a opção ''Multi-way ANOVA''... |
* o resultado aparecerá na janela //Output//. | * o resultado aparecerá na janela //Output//. | ||
+ | |||
</WRAP> | </WRAP> | ||
Linha 222: | Linha 239: | ||
\\ | \\ | ||
\\ | \\ | ||
- | Inclua os seguintes produtos no formulário a seguir ou pelo [[https://forms.gle/PgV1ZJGaaaQJtbxc6| link do formulário]] | + | Inclua os seguintes produtos no formulário abaixo: |
+ | * [[https://docs.google.com/forms/d/e/1FAIpQLSdklx8YfIE31Cp7t2IsN2TL_6m-gChiu6KoAMyIu7RNBJiZaA/viewform?usp=sf_link| link do formulário]] | ||
1) Para os dados de solos e produtividade (Crawley, 2007): | 1) Para os dados de solos e produtividade (Crawley, 2007): | ||
Linha 237: | Linha 255: | ||
</WRAP> | </WRAP> | ||
- | |||
- | |||
- | {{url>https://forms.gle/PgV1ZJGaaaQJtbxc6}} | ||
====== Regressão Linear Simples ====== | ====== Regressão Linear Simples ====== | ||
Linha 413: | Linha 428: | ||
\\ | \\ | ||
- | Vcs agora continuarão a pesquisa sobre o efeito das condições ambientais na produtividade primária de ecossistemas terrestres. Suponha que vcs estão interessados em entender o efeito da temperatura média anual (°C) sobre a produtividade primária líquida (MgC/ha/ano). Dado que a temperatura média anual dos ecossistemas terrestres está diretamente relacionada ao comprimento da estação de crescimento, a hipótese a ser testada é se a temperatura tem efeito positivo sobre a produtividade. Utilize o conjuntos de dados {{ :cursos:planeco:roteiro:produtividade_temp.txt |produtividade_temp.txt}}((Caso os dados abram em uma aba do navegador, clique com o botão direito do mouse e utilize o menu "Salvar link como..." ou algo parecido para salvar o arquivo em um diretório do seu computador.)), faça a regressão linear simples, interprete os resultados e avalie o atendimento das premissas do modelo. Preencha o seguinte [[https://docs.google.com/forms/d/e/1FAIpQLSdgCuAhTbKoidM5JBpJoQIvYYJQNLIvGPBIyb5hMRB-pw5htw/viewform?usp=pp_url| formulário]] para registrar suas respostas. | + | Vcs agora continuarão a pesquisa sobre o efeito das condições ambientais na produtividade primária de ecossistemas terrestres. Suponha que vcs estão interessados em entender o efeito da temperatura média anual (°C) sobre a produtividade primária líquida (MgC/ha/ano). Dado que a temperatura média anual dos ecossistemas terrestres está diretamente relacionada ao comprimento da estação de crescimento, a hipótese científica a ser testada é se a temperatura tem efeito positivo sobre a produtividade. Utilize o conjuntos de dados {{ :cursos:planeco:roteiro:produtividade_temp.txt |produtividade_temp.txt}}((Caso os dados abram em uma aba do navegador, clique com o botão direito do mouse e utilize o menu "Salvar link como..." ou algo parecido para salvar o arquivo em um diretório do seu computador.)), faça a regressão linear simples, interprete os resultados e avalie o atendimento das premissas do modelo. Preencha o seguinte [[https://docs.google.com/forms/d/e/1FAIpQLSdV6OpfCM1sAetfQxeap_uYDxC5xsCm4GjMGrH1wBcI1gEI3Q/viewform?usp=sf_link| formulário]] para registrar suas respostas. |