====== Entendendo o p-valor ======
<WRAP center round box 60%>

Antes de iniciar o roteiro anote o seu nome, altura (em centímetros e sem decimais) e sexo (M, F) na planilha [[https://docs.google.com/spreadsheets/d/11UVh4_6T_KQq_ZSfn4ALekKyFew4bqNkwp4i3YM1g-M/edit?usp=sharing| altura alunos]]. 
</WRAP>

===== Vídeo Aula: O significado do P-valor =====

Aula síncrona gravada durante a pandemia, permanece aqui como material de consulta.  

<WRAP center round box 80%>
**//__Aula Gravada: O significado do P-valor__//**
{{ youtube>BiIKenh387k |}}
</WRAP>


===== Introdução =====


{{:planeco:roteiro:nullhip.jpg?120  |  }}
O objetivo desse roteiro é auxiliar na compreensão de dois conceitos fundamentais do teste de hipótese estatística. O primeiro é entender o significado do //**p-valor**// que é a probabilidade de que nossa observação seja gerada em um cenário onde a hipótese nula é verdadeira. Dessa forma, //**p-valor**// é um indicador da compatibilidade entre o conjunto de dados coletados e a hipótese nula. Suponha um //**p-valor**// muito pequeno (por exemplo 0,001). Isso significa que é pouco provável que as observações tenham sido obtidas em um cenário em que a hipótese nula seja verdadeira (alta incompatibilidade). Diante de um resultado pouco provável, rejeitamos a hipótese nula e ficamos com a hipótese alternativa que pressupõe algo mais, além da variação aleatória. Se por outro lado, o //**p-valor**// é próximo de 1, significa que a diferença observada tem alta probabilidade de ser gerada à partir do cenário nulo (alta compatibilidade). Mas qual deve ser o ponto de corte, ou seja, a partir de que valor crítico de **p**((a partir desse ponto vamos chamar o **p-valor** apenas de **p**)) devemos aceitar ou rejeitar a hipótese nula? Convencionou-se arbitrariamente, em muitas áreas da ciência, que tal valor crítico é de 0.05 ou 5%. Ou seja, a probabilidade que o cenário nulo tenha gerado as observações é de 5%.

O segundo objetivo desse roteiro é definir quando devemos aplicar um teste unicaudal ou bicaudal e como isso se relaciona à nossa hipótese estatística e à nossa hipótese científica. É muito importante que, ao fazer este roteiro, você discuta com colegas e professores os conceitos apresentados. 

Antes de iniciar o roteiro propriamente dito é necessário instalar os programas que iremos utilizar.  

===== Instalando o Rsampling =====
  
Para rodar esse roteiro utilizaremos duas ferramentas para o ensino de estatística desenvolvida por pessoas ligadas ao departamento de ecologia do IBUSP. O primeiro é o pacote [[https://cran.r-project.org/web/packages/Rsampling/index.html|Rsampling]] que contém instrumentação de permutação e aleatorização para a linguagem R. O outro é uma interface gráfica ([[https://github.com/lageIBUSP/Rsampling-shiny|Rsampling-shiny]]) para usar as ferramentas deste pacote no seu navegador. Não há necessidade de conhecimento prévio em R para fazer esse roteiro.

==== Rsampling-shiny ====

O primeiro passo é baixar a interface gráfica e descompactar o arquivo em um diretório conhecido no seu computador. Sugerimos que crie uma pasta para a disciplina "planeco" dentro da pasta de documentos do computador que está trabalhando.

Baixe, para essa pasta, o arquivo "source code" //zip// ou //tar.gz//((se não sabe a diferença entre os dois tipos de arquivos, provavelmente irá preferir o zip)) da versão mais recente (1.7.0) do Rsampling-shiny no link:

  * [[https://github.com/lageIBUSP/Rsampling-shiny/releases|Versões Rsamping-shiny]]

Descompacte o arquivo na mesma pasta.

<wrap hi>//Depois de descompactar e testar o funcionamento (com os passos abaixo), você pode deletar o arquivo .zip ou .tar.gz//</wrap>


==== Usando o R ====

Abra o R pelo ícone {{:planeco:rlogo.png?20|R}} do programa (( Pode haver mais de uma versão do R instalado no computador. Escolha a mais recente em 64b)) instalado em seu computador. Usando o menu **//Arquivo//** > **//mudar dir...//**. mude o diretório de trabalho para o diretório (//i.e.// a pasta) em que você salvou o Rsampling.  
Caso não tenha o R instalado no computador, veja algumas dicas de como [[http://ecor.ib.usp.br/doku.php?id=01_curso_atual:usor|instalar o R em nosso wiki]]. 

==== Instalando os pacotes ====

Em seguida copie e cole a seguinte linha de comando no terminal do R para instalar os pacotes associados:

<code>
install.packages(c("Rsampling", "shiny", "PerformanceAnalytics"))
</code> 

A seguinte mensagem irá aparecer no terminal do R //"--- Please select a CRAN mirror for use in this session ---"// e uma janela irá se abrir para que selecione o repositório mais próximo. Selecione  //**Brazil(SP 1)**//.
Aguarde a instalação dos pacotes finalizar.

==== Abrindo a interface gráfica ====

Agora digite as seguintes linhas de comando no terminal do R. A primeira linha irá ativar o pacote shiny que acabou de instalar, a segunda irá alterar o idioma para português e a terceira irá abrir a interface Rsampling-shiny no seu navegador, a partir do nome do diretório que descompactou.  Sempre que quiser abrir a interface, deve digitar essas três linhas a partir do diretório da disciplina, não há necessidade de instalar os pacotes novamente ((garanta que a pasta do Rsampling-shiny chamada tenha o nome correspondente com a versão que baixou, no caso o nome deve ser "Rsampling-shiny-1.7.0")).
<code>
library(shiny)
language="pt"
runApp("Rsampling-shiny-1.7.0")
</code>

Se tudo correu bem, a seguinte interface deverá estar aberta no navegador:

<WRAP center round box 80%>
{{:cursos:planeco:planeco:roteiro:rsampl01.png?700|}}

</WRAP>

A interface Rsampling tem 5 abas (em português: Rsampling, Tutorial, Entrada de dados, Estatística, Reamostragem). 
Explore as abas.


<WRAP center round tip 90%>
<del>Dê preferência para usar o Rsampling localmente na sua máquina, seguindo o procedimento descrito acima, desta forma pode utilizá-lo quando houver necessidade. Caso não consiga instalar, use o Rsampling hospedado em nosso servidor neste link:
 
  * [[http://143.107.246.201:3838/Rsampling-shiny/| Rsampling PlAnEco]]
</del>

<WRAP center round alert 60%>
O servidor do shiny não está funcionando. Use a instalação local descrita acima para usar o aplicativo.
</WRAP>

</WRAP>

====  Árvores do Mangue ====

Nesta sessão vamos nos ater ao exemplo **"Árvores de Mangue"** baseado em um trabalho de alunos de pós-graduação durante o curso de campo em nosso programa. O quadro baixo apresenta a descrição da coleta dos dados((Não siga o desenho amostral desse estudo. Os alunos tinham apenas algumas horas para coletar os dados e tiveram que simplificar o desenho amostral)). 


<WRAP center round box 100%>

**//__Coleta de dados__//**


{{:cursos:planeco:roteiro:mangue.jpg?300  |}}

"Desenvolvemos o estudo em uma área de manguezal
às margens do Rio Una, no município de
Peruíbe, litoral sul do estado de São Paulo. Delimitamos
duas parcelas de 50 x 50 m, de mesmo
relevo, uma próxima à margem do rio, sujeita a um
maior tempo de inundação, a qual nos referimos
como mais lodosa, e outra no interior do mangue,
sujeita a um menor tempo de inundação, a qual
nos referimos como menos lodosa.
Fizemos uma amostragem arbitrária de 12 indivíduos de //Rhizophora mangle// em cada uma das parcelas. As
variáveis utilizadas como medidas de sustentação
dos indivíduos foram área de fixação da raiz e número de pontos de apoio de raízes escora no solo.
Para medir a área de fixação das raízes de cada
indivíduo, aproximamos a área abrangida pelos
pontos de apoio das raízes no solo ao formato de
uma elipse. Medimos, em metros, o raio maior e o
menor dessa elipse. O número de pontos de apoios
foi obtido contando todas as vezes que as ramificações das raízes tocavam no solo...."

</WRAP>

==== Tutorial Mangue ====

Abra o Rsampling-shiny e na aba tutorial selecione: ''árvores do mangue e estabilidade do solo''.  

<WRAP center round box 80%>
{{:planeco:roteiro:rsampl02.png?800|}}
</WRAP>

<WRAP center round todo 60%>
  * não aperte nenhum botão ainda;
  * leia a página do tutorial;
  * identifique e tente entender a pergunta e a hipótese colocada; 
  * identifique qual a hipótese nula para a questão colocadas;
  * formule uma predição esperada, associada à estatística de interesse;
  * entenda o que está expresso na tabela central e no gráfico (boxplot) à direita; 
  * aguarde a discussão desses tópicos com toda a equipe.
</WRAP>


Entender a hipótese e sua conexão com a estatística de interesse é crucial para compreender o que segue. Aqui estamos utilizando uma estatística de interesse bastante intuitiva, a diferença entre as médias de áreas de raizes dos diferentes solos. Faça uma breve pausa e reflita sobre como a diferença de área de raízes  média entre os tipos de solo se conecta com a hipótese. Anote suas dúvidas para a discussão.  

Iremos tratar a conexão entre estatística de interesse e hipótese em outros momentos durante o curso, mas não deixe que esses conceitos fiquem sem ser entendidos ao final deste módulo da disciplina. 


==== Definindo um cenário nulo ====


Agora é preciso definir um cenário associado à hipótese nula, um cenário em que a hipótese nula é verdadeira. Em geral, o cenário nulo está vinculado à explicação mais simples ou à ausência de efeitos relacionados ao processo investigado. No exemplo do mangue seria a ausência de efeito na área de raízes relacionada ao tipo de solo. Ou seja, não há diferença detectável de área de raízes das árvores entre o solo mais lodoso e o menos lodoso. 

Uma questão que emerge nesse ponto é: o que pode ser considerado **ausência de efeito** ou **diferença detectável** entre os tipos de solos? Afinal, mesmo em um cenário onde não efeito do tipo de solo, não é esperado que os valores das áreas de raízes sejam exatamente iguais, nem mesmo das árvores que estão em um mesmo tipo de solo.

É certo que existem outros fatores, além do tipo de solo, que podem influenciar o desenvolvimento das raízes de uma árvore. Por exemplo, a idade do indivíduo, variações de desempenho entre indivíduos de mesma idade e mesmo a variação associada ao processo de amostragem ((por acaso amostramos árvores menores ou maiores)), isso só para citar algumas de muitos fontes possíveis de variação. Portanto, precisamos diferenciar a variação associada a outros fontes, daquela que estamos interessados, no caso o tipo de solo. O que iremos fazer a seguir é simular cenários em que toda a variabilidade existente vem de outras fontes que não seja o solo. Como não sabemos exatamente quais são essas outras fontes possíveis de variações imprevisíveis, vamos chamar essa variabilidade de aleatória.   


Para gerar o cenário nulo podemos usar um procedimento simples que é desestruturar a fonte de variação de interesse, no caso o tipo de solo. Podemos, por exemplo, pegar os valores de área de raízes e rearranjá-los entre os tipos de solos de forma aleatória. Nesse procedimento, qualquer diferença que apareça entre os solos é proveniente de outras fontes que não o tipo de solo, por exemplo a idade dos indivíduos. 

Se repetirmos esse procedimento muitas vezes, quais valores da estatística de interesse seriam mais frequentes, partindo da premissa que nosso cenário nulo é verdadeiro?


Podemos responder essas questões utilizando a interface do ''RSampling'', como segue abaixo. 

<WRAP center round todo 80%>

**__Usado o RSammpling__**

  * na aba do tutorial, abaixo de **"Conjunto de dados"** selecione "Aleatorizado", depois volte para "Original". Alterne entre essas opções algumas vezes e procure entender o que acontece quando muda a seleção;
  * deixe "Aleatorizado" selecionado e clique no botão "De novo!", que fica abaixo do ''boxplot'', algumas vezes;
  * compare os resultados dos valores que aparecem no ''boxplot'' com os valores que são colocados no gráfico de barras à esquerda;
  * clique em "De novo!" várias vezes, até que umas das barras chegue ao valor máximo do gráfico à esquerda;
  * reflita sobre o significado desse gráfico e anote suas dúvidas para a discussão com a equipe.
</WRAP>

===== Reamostrando os dados =====

Caso tenha entendido o procedimento que gera o cenário nulo por aleatorização, podemos partir para o teste de hipótese seguindo os passos definidos abaixo.


<WRAP center round todo 90%>
  * Na aba //Entrada de dados// selecione os dados //"rhyzophora"//;
  * Na aba //Estatística// :
        - em **Estatística:** selecione //"Diferença média entre dois grupos"//;
        - em **Column 1((aqui você deve sempre colocar a variável que define os grupos)):** selecione//"soil.instability"//;
        - em ** Column 2((aqui você deve colocar a variável resposta)):** selecione //"root"//;
  * Na aba //Reamostragem// :
        - em ** Tipo de aleatorização:** selecione //"Dentro de colunas"//;
        - em **Alternativa:** selecione //Maior que//;
        - em **Número de repetições:** deslize botão para o número 1000;
        - **Não** selecione //"Com reposição?"//, nem //"Reamostragem estratificada"//;
        - clique em **Atualizar gráfico**;
  * Entenda o que está acontecendo, troque informações com os colegas e aguarde a discussão com os professores 
 </WRAP>


===== Teste Bi ou Unicaudal =====

Uma decisão, tomada no começo do tutorial, não foi apresentada anteriormente: o teste feito até agora é unicaudal.  O que significa isso?
Mude a opção na aba de ''Reamostragem'' na barra ''Alternativa'' de ''Maior que'' para ''Bicaudal''.


<WRAP center round todo 60%> 
  * acompanhe o que acontece com o //p-value//;
  * há mudança na hipótese biológica em questão?
</WRAP>


<WRAP center round box 90%>
===== Exercício =====

  * Caso ainda não tenha feito, anote o seu nome, altura (em centímetros e sem decimais) e sexo (M, F) na planilha 
  * [[https://docs.google.com/spreadsheets/d/11UVh4_6T_KQq_ZSfn4ALekKyFew4bqNkwp4i3YM1g-M/edit?usp=sharing| altura alunos]]. 
  * aguarde todos os alunos preencherem
  * salve a planilha no seu computador, usando o formato **.csv**
  * importe a planilha para o Rsampling, usando na aba "Entrada de Dados" a opção //"Upload file"//
  * selecione a opção "Cabeçalho?"
  * com esse conjunto de dados, teste as seguintes hipóteses usando o Rsampling:
      * 1. altura média entre gêneros é diferente;
      * 2. altura média de estudantes do sexo masculino é maior que de estudantes do sexo feminino;
      * 3. altura média de estudantes do sexo feminino é maior que de masculino;
  * utilize 5.000 reamostragens
  * salve os gráficos da distribuição da estatítica de interesse


<WRAP round help 100%>

\\
** __PARA ENTREGAR ANTES DO INÍCIO DA PRÓXIMA AULA__ **
\\
\\
  * 1 - os gráficos finais e o p-valor para as duas hipóteses do exercício
  * 2 - a interpretação dos resultados (máximo 5 linhas para cada hipótese)

Encaminhe as suas respostas pelo formulário  [[https://docs.google.com/forms/d/e/1FAIpQLSd3ybWLrOZRkMKtu0otw-mr1pGsLiVSMo_z71IhiatymZQ8uw/viewform?usp=sharing|link aqui]], após login em conta google. Caso encontre problemas na submissão dos formulários, encaminhe o documento à equipe (**planecousp@gmail.com**), indicando como "Assunto": **Teste de Hipóteses**

/*
{{url>https://docs.google.com/forms/d/e/1FAIpQLSe8ch4Ub9ZZElLIuh-g5rMdW92XwZS0fp_YEUYelVzVmwHi-g/viewform?usp=sf_link}}
*/


</WRAP>


</WRAP>

/*
ATENÇÃO: DAQUI PARA BAIXO = COISAS DE VERSÕES ANTIGAS RETIRADAS:
*/


/*

<WRAP center round todo 60%>
  * Em grupo de 2 a 3 alunos refaça análise de algum estudo pertencente a integrantes do grupo para testar hipótese por reamostragem;
  *  caso nenhum integrante do grupo tenha algum conjunto de dados disponível, solicite aos monitores um conjunto de dados e a explicação sobre a hipótese a ser testada; 
  * prepare um slide com o resultado e a sua interpretação para ser apresentado e discutido com a turma toda.
</WRAP>

*/

/*
Caso tenha entendido o tutorial, podemos partir para o teste de hipótese por aleatorização.

<WRAP center round box 60%>
  * Selecione os dados de ''rizophora'' na aba //Data input//;
  * rode o teste passando pela seleção da estatística de interesse e depois pelo processo de reamostragem 
  * faça as escolhas das opções discutindo com os colegas o significado de cada uma;
  * quando estiver seguro das opções rode pelo menos 2500 reamostragens (trials) e interprete o resultado;
  * mude as opções na barra de rolagem **Alternative**;
  * discorra com os colegas o significado de cada uma das opções do **Alternative**;
  * aguarde para discutir com os professores o significado dessas opções.

</WRAP>

<WRAP center round todo 70%>
Caso tenha entendido o tutorial, podemos partir para o teste de hipótese por aleatorização.
    * - Na janela //Data input// selecione os dados //rizophora//;
  *   - na janela //Statistic// selecione:
  *       - em **Statistic:** //"Mean difference between 2 groups"//;
  *       - em **Categorical variable column**: //"soil.instability"//;
  *       - em ** Numerical variable column**: //root//;
  *   - na janela //Resampling//:
  *       - selecione "Whitin columns" em ** Randomization type:**;
  *       - em **Alternative** selecione //Greater//;
  *       - em **Number of trials** selecione 1000;
  *       - **Não selecione** //With replacement?// e //Stratified resampling//;
  *       - clique em **Update Graph**;
  *   - entenda o que está acontecendo, troque informações com os colega e aguarde a discussão com os professores 
 </WRAP>

*/