====== Entendendo o p-valor ====== Antes de iniciar o roteiro anote o seu nome, altura (em centímetros e sem decimais) e sexo (M, F) na planilha [[https://docs.google.com/spreadsheets/d/11UVh4_6T_KQq_ZSfn4ALekKyFew4bqNkwp4i3YM1g-M/edit?usp=sharing| altura alunos]]. ===== Vídeo Aula: O significado do P-valor ===== Aula síncrona gravada durante a pandemia, permanece aqui como material de consulta. **//__Aula Gravada: O significado do P-valor__//** {{ youtube>BiIKenh387k |}} ===== Introdução ===== {{:planeco:roteiro:nullhip.jpg?120 | }} O objetivo desse roteiro é auxiliar na compreensão de dois conceitos fundamentais do teste de hipótese estatística. O primeiro é entender o significado do //**p**//, ou a probabilidade de que, num cenário na qual a hipótese nula seja verdadeira, uma estatística de interesse tomada a partir de uma amostra seja igual ou mais extrema do que o valor observado. Dessa forma, o valor de //**p**// é um indicador da compatibilidade entre o conjunto de dados coletados e a hipótese nula. Suponha um valor de //**p**// muito pequeno (próximo de 0,001). Isso significa que é pouco provável que a diferença observada (estatística de interesse) tenha sido obtida caso a hipótese nula fosse verdadeira (alta incompatibilidade). Diante de um resultado pouco provável, rejeitamos a hipótese nula e ficamos com a hipótese alternativa que pressupõe algo mais, além da variação aleatória. Se por outro lado, o valor de //**p**// é próximo de 1,00, significa que a diferença observada tem alta probabilidade de ser gerada a partir do cenário nulo, ou seja, de que a diferença observada seja atribuída apenas à variação aleatória decorrente do acesso limitado aos dados (alta compatibilidade). Mas qual deve ser o ponto de corte, ou seja, a partir de que valor crítico de P devemos aceitar ou rejeitar a hipótese nula? Convencionou-se arbitrariamente, em muitas áreas da ciência, que tal valor crítico é de 0.05 ou 5%. O segundo objetivo desse roteiro é definir quando devemos aplicar um teste unicaudal ou bicaudal e como isso se relaciona à nossa hipótese estatística e à nossa hipótese científica. É muito importante que, além de fazer o roteiro, você discuta com colegas e professores os conceitos apresentados. Antes de iniciar o roteiro propriamente dito é necessário instalar os programas que iremos utilizar. ===== Instalando o Rsampling ===== Para rodar esse roteiro utilizaremos duas ferramentas para o ensino de estatística desenvolvida por pessoas ligadas ao departamento de ecologia do IBUSP. O primeiro é o pacote **//Rsampling//** que contém instrumentação de permutação e aleatorização para a linguagem R. O outro é uma interface gráfica (**//Rsampling-shiny//**) para usar as ferramentas deste pacote no seu navegador. Não há necessidade de conhecimento prévio em R para fazer esse roteiro. ==== Rsampling-shiny ==== O primeiro passo é baixar a interface gráfica e descompactar o arquivo em um diretório conhecido no seu computador. Sugerimos que crie uma pasta para a disciplina "planeco" dentro da pasta de documentos do computador que está trabalhando. Baixe, para essa pasta, o arquivo "source code" //zip// ou //tar.gz//((se não sabe a diferença entre os dois tipos de arquivos, provavelmente irá preferir o zip)) da versão mais recente (1.7.0) do Rsampling-shiny no link: * [[https://github.com/lageIBUSP/Rsampling-shiny/releases|Versões Rsamping-shiny]] Descompacte o arquivo na mesma pasta. //Depois de descompactar e testar o funcionamento (com os passos abaixo), você pode deletar o arquivo .zip ou .tar.gz// ==== Usando o R ==== Abra o R pelo ícone {{:planeco:rlogo.png?20|R}} do programa (( Pode haver mais de uma versão do R instalado no computador. Escolha a mais recente em 64b)) instalado em seu computador. Usando o menu **//Arquivo//** > **//mudar dir...//**. mude o diretório de trabalho para o diretório (//i.e.// a pasta) em que você salvou o Rsampling. Caso não tenha o R instalado no computador, veja algumas dicas de como [[http://ecor.ib.usp.br/doku.php?id=01_curso_atual:usor|instalar o R em nosso wiki]]. ==== Instalando os pacotes ==== Em seguida copie e cole a seguinte linha de comando no terminal do R para instalar os pacotes associados: install.packages(c("Rsampling", "shiny", "PerformanceAnalytics")) A seguinte mensagem irá aparecer no terminal do R //"--- Please select a CRAN mirror for use in this session ---"// e uma janela irá se abrir para que selecione o repositório mais próximo. Selecione //**Brazil(SP 1)**//. Aguarde a instalação dos pacotes finalizar. ==== Abrindo a interface gráfica ==== Agora digite as seguintes linhas de comando no terminal do R. A primeira linha irá ativar o pacote shiny que acabou de instalar, a segunda irá alterar o idioma para português e a terceira irá abrir a interface Rsampling-shiny no seu navegador, a partir do nome do diretório que descompactou. Sempre que quiser abrir a interface, deve digitar essas três linhas a partir do diretório da disciplina, não há necessidade de instalar os pacotes novamente ((garanta que a pasta do Rsampling-shiny chamada tenha o nome correspondente com a versão que baixou, no caso o nome deve ser "Rsampling-shiny-1.7.0")). library(shiny) language="pt" runApp("Rsampling-shiny-1.7.0") Se tudo correu bem, a seguinte interface deverá estar aberta no navegador: {{:cursos:planeco:planeco:roteiro:rsampl01.png?700|}} A interface Rsampling tem 5 abas (em português: Rsampling, Tutorial, Entrada de dados, Estatística, Reamostragem). Explore as abas. ==== Árvores do Mangue ==== Nesta sessão vamos nos ater ao exemplo **"Árvores de Mangue"** baseado em um trabalho de alunos de pós-graduação durante o curso de campo em nosso programa. Abaixo a descrição da coleta dos dados((Não siga o desenho amostral desse estudo. Os alunos tinham apenas algumas horas para coletar os dados e tiveram que simplificar o desenho amostral)). **//__Coleta de dados__//** {{:cursos:planeco:roteiro:mangue.jpg?300 |}} "Desenvolvemos o estudo em uma área de manguezal às margens do Rio Una, no município de Peruíbe, litoral sul do estado de São Paulo. Delimitamos duas parcelas de 50 x 50 m, de mesmo relevo, uma próxima à margem do rio, sujeita a um maior tempo de inundação, a qual nos referimos como mais lodosa, e outra no interior do mangue, sujeita a um menor tempo de inundação, a qual nos referimos como menos lodosa. Fizemos uma amostragem arbitrária de 12 indivíduos de //Rhizophora mangle// em cada uma das parcelas. As variáveis utilizadas como medidas de sustentação dos indivíduos foram área de fixação da raiz e número de pontos de apoio de raízes escora no solo. Para medir a área de fixação das raízes de cada indivíduo, aproximamos a área abrangida pelos pontos de apoio das raízes no solo ao formato de uma elipse. Medimos, em metros, o raio maior e o menor dessa elipse. O número de pontos de apoios foi obtido contando todas as vezes que as ramificações das raízes tocavam no solo...." ==== Tutorial Mangue ==== Abra o Rsampling-shiny e na aba tutorial o relacionado à árvores do mangue e estabilidade do solo. {{:planeco:roteiro:rsampl02.png?800|}} * não aperte nenhum botão ainda; * leia a página do tutorial; * identifique e tente entender a pergunta e a hipótese colocada; * identifique qual a hipótese nula para a questão colocadas; * formule uma predição esperada, associada à estatística de interesse; * entenda o que está expresso na tabela central e no gráfico (boxplot) à direita; * aguarde a discussão desses tópicos com toda a equipe. Entender a hipótese e sua conexão com a estatística de interesse é crucial para compreender o que segue. Aqui estamos utilizando uma estatística de interesse bastante intuitiva, a diferença entre as médias de áreas de raizes dos diferentes solos. Faça uma breve pausa e reflita sobre como a diferença de área de raízes média entre os tipos de solo se conecta com a hipótese. Anote suas dúvidas para a discussão. Iremos tratar a conexão entre estatística de interesse e hipótese em outros momentos durante o curso, mas não deixe que esses conceitos fiquem sem ser entendidos ao final deste módulo da disciplina. ==== Definindo um cenário nulo ==== Agora precisamos definir um cenário associado à hipótese nula, o nosso cenário nulo. Em geral, o cenário nulo está vinculado à explicação mais simples ou à ausência de efeitos relacionados à hipótese. No exemplo do mangue seria a ausência de efeito na área de raízes relacionada ao tipo de solo. Ou posto de outra forma, não há diferença detectável de área de raízes das árvores entre os tipos de solos. Uma questão que emerge nesse ponto é: o que pode ser considerado **ausência de efeito** ou **diferença detectável**? Afinal, mesmo em um cenário nulo não esperamos que os valores das áreas de raizes sejam exatamente iguais, mesmo das árvores que estão em um mesmo tipo de solo. É certo que existem outros fatores, além do tipo de solo, que podem influenciar o desenvolvimento das raízes de uma árvore. Por exemplo, a idade do indivíduo, variações de desempenho entre indivíduos de mesma idade e mesmo a variação associada ao processo de amostragem, isso só para citar algumas de muitos fontes possíveis. Portanto, precisamos diferenciar a variação associada a outros fontes, daquela que estamos interessados, no caso o solo. O que iremos fazer a seguir é simular cenários em que toda a variabilidade existente vem de outras fontes que não seja o solo. Como não sabemos exatamente quais são essa muitas outras fontes possíveis de variação e por gerarem variação imprevisível, vamos chamar essa variabilidade de aleatória. Para gerar o cenário nulo podemos usar um procedimento simples que é desestruturar a fonte de variação de interesse. Ou seja, pegamos os valores de área de raízes e rearranjamos esses valores entre os tipos de solos de forma aleatória. Nesse momento, qualquer diferença que apareça nos dados é proveniente de outras fontes que não o tipo de solo. Se repetirmos esse procedimento muitas vezes, quais valores da estatística de interesse seriam mais frequentes, partindo da premissa que nosso cenário nulo é verdadeiro? Podemos responder essas questões utilizando a interface do RSampling, como segue abaixo. **__Usado o RSammpling__** * na aba do tutorial, abaixo de **"Conjunto de dados"** selecione "Aleatorizado", depois volte para "Original". Alterne entre essas opções algumas vezes e procure entender o que acontece quando muda a seleção; * deixe "Aleatorizado" selecionado e clique no botão "De novo!", que fica abaixo do boxplot, algumas vezes; * compare os resultados dos valores que aparecem no boxplot com os valores que são colocados no gráfico de barras à esquerda; * clique em "De novo!" várias vezes, até que umas das barras chegue ao valor máximo do gráfico à esquerda; * reflita sobre o significado desse gráfico e anote suas dúvidas para a discussão com a equipe. ===== Reamostrando os dados ===== Caso tenha entendido o procedimento que gera o cenário nulo por aleatorização, podemos partir para o teste de hipótese seguindo os passos definidos abaixo. * Na aba //Entrada de dados// selecione os dados //"rhyzophora"//; * Na aba //Estatística// : - em **Estatística:** selecione //"Diferença média entre dois grupos"//; - em **Column 1((aqui você deve sempre colocar a variável que define os grupos)):** selecione//"soil.instability"//; - em ** Column 2((aqui você deve colocar a variável resposta)):** selecione //"root"//; * Na aba //Reamostragem// : - em ** Tipo de aleatorização:** selecione //"Dentro de colunas"//; - em **Alternativa:** selecione //Maior que//; - em **Número de repetições:** deslize botão para o número 1000; - **Não** selecione //"Com reposição?"//, nem //"Reamostragem estratificada"//; - clique em **Atualizar gráfico**; * Entenda o que está acontecendo, troque informações com os colegas e aguarde a discussão com os professores ===== Teste Bi ou Unicaudal ===== Uma decisão, tomada no começo do tutorial, não foi apresentada anteriormente: o teste feito até agora é unicaudal. O que significa isso? Mude a opção na aba de //Reamostragem// na barra **Alternativa** de //"Maior que"// para //"Bicaudal"//. * acompanhe o que acontece com o //p-value//; * há mudança na hipótese biológica em questão? ===== Exercício ===== * Caso ainda não tenha feito, anote o seu nome, altura (em centímetros e sem decimais) e sexo (M, F) na planilha * [[https://docs.google.com/spreadsheets/d/11UVh4_6T_KQq_ZSfn4ALekKyFew4bqNkwp4i3YM1g-M/edit?usp=sharing| altura alunos]]. * aguarde todos os alunos preencherem * salve a planilha no seu computador, usando o formato **.csv** * importe a planilha para o Rsampling, usando na aba "Entrada de Dados" a opção //"Upload file"// * selecione a opção "Cabeçalho?" * com esse conjunto de dados, teste as seguintes hipóteses usando o Rsampling: * 1. altura média entre gêneros é diferente; * 2. altura média de estudantes do sexo masculino é maior que de estudantes do sexo feminino; * 3. altura média de estudantes do sexo feminino é maior que de masculino; * utilize 5.000 reamostragens * salve os gráficos da distribuição da estatítica de interesse \\ ** __PARA ENTREGAR ANTES DO INÍCIO DA PRÓXIMA AULA__ ** \\ \\ * 1 - os gráficos finais e o p-valor para as duas hipóteses do exercício * 2 - a interpretação dos resultados (máximo 5 linhas para cada hipótese) Encaminhe as suas respostas pelo formulário [[https://docs.google.com/forms/d/e/1FAIpQLSe8ch4Ub9ZZElLIuh-g5rMdW92XwZS0fp_YEUYelVzVmwHi-g/viewform?usp=sf_link|link aqui]], após login em conta google. Caso encontre problemas na submissão dos formulários, encaminhe o documento à equipe (**planecousp@gmail.com**), indicando como "Assunto": **Teste de Hipóteses** /* {{url>https://docs.google.com/forms/d/e/1FAIpQLSe8ch4Ub9ZZElLIuh-g5rMdW92XwZS0fp_YEUYelVzVmwHi-g/viewform?usp=sf_link}} */ /* ATENÇÃO: DAQUI PARA BAIXO = COISAS DE VERSÕES ANTIGAS RETIRADAS: */ /* * Em grupo de 2 a 3 alunos refaça análise de algum estudo pertencente a integrantes do grupo para testar hipótese por reamostragem; * caso nenhum integrante do grupo tenha algum conjunto de dados disponível, solicite aos monitores um conjunto de dados e a explicação sobre a hipótese a ser testada; * prepare um slide com o resultado e a sua interpretação para ser apresentado e discutido com a turma toda. */ /* Caso tenha entendido o tutorial, podemos partir para o teste de hipótese por aleatorização. * Selecione os dados de ''rizophora'' na aba //Data input//; * rode o teste passando pela seleção da estatística de interesse e depois pelo processo de reamostragem * faça as escolhas das opções discutindo com os colegas o significado de cada uma; * quando estiver seguro das opções rode pelo menos 2500 reamostragens (trials) e interprete o resultado; * mude as opções na barra de rolagem **Alternative**; * discorra com os colegas o significado de cada uma das opções do **Alternative**; * aguarde para discutir com os professores o significado dessas opções. Caso tenha entendido o tutorial, podemos partir para o teste de hipótese por aleatorização. * - Na janela //Data input// selecione os dados //rizophora//; * - na janela //Statistic// selecione: * - em **Statistic:** //"Mean difference between 2 groups"//; * - em **Categorical variable column**: //"soil.instability"//; * - em ** Numerical variable column**: //root//; * - na janela //Resampling//: * - selecione "Whitin columns" em ** Randomization type:**; * - em **Alternative** selecione //Greater//; * - em **Number of trials** selecione 1000; * - **Não selecione** //With replacement?// e //Stratified resampling//; * - clique em **Update Graph**; * - entenda o que está acontecendo, troque informações com os colega e aguarde a discussão com os professores */