====== Análise de Dados Categóricos ====== --- //[[adalardo@usp.br|Alexandre Adalardo]] 2008/12/31 13:41// Esta página wiki é baseado largamente no livro "A Primer of Ecological Statistics" de Nicholas Gotelli, mesmo autor de "A Primer of Ecology", que dispensa maiores apresentações, com co-autoria de Aaron Ellison (the last but not the least! sorry Aaron!!). Esse material foi produzido para uma aula introdutória sobre o análise de dados categóricos em um curso de campo, portanto bastante básica, mas pretendo incluir mais material futuramente. ===== Variável Categórica ===== O estado da variável está relacionado a diferentes níveis que pode ser ordenado ou não. **Não ordenados**: sexo (masculino,feminino, outros), ambiente (capoeira, floresta, campo), nome do fragmento (A, B, C) **Ordenados**: classes de luminosidade (alta, média, baixa), tamanho de fragmento (pequeno, médio, grande) ===== Tipos de Análises ===== Quando a variável preditora (independente) é categórica e a variável resposta (dependente) também, analisamos os dados através de tabelas de contingência. - Uma variável preditora temos: -✘2, - teste G, - Teste exato de Fisher - Mais do que uma variável preditora -**OUTRA AULA** Aqui vamos tratar apenas do primeiro caso, com apenas uma variável preditora, com a premissa de que apenas uma variável é capaz de prever os resultados, ou que com apenas uma variável explica grande parte da variação encontrada nos dados. ===== Exemplo de dados ===== Em nossos exemplos utilizaremos um conjunto de dados relacionado à herbivoria (alta, baixa) de populações de plantas em dois ambientes de restinga (duna e floresta) * Plantas da Restinga Dado 73 populações de espécies de plantas em dois ambientes, classificamos cada população quanto à perda de área foliar(alta ou baixa). Uma forma de apresentar uma síntese desses dados e com uso de tabela de contingência, como segue: ^ ^ AMBIENTE ^^ ^Herbivoria^ Floresta ^ Duna ^ ^ Alta | 18 | 8 | ^ Baixa | 15 | 32 | ===== Apresentação Gráfica ===== Uma outra forma de apresentar esses dados é através de um gráfico de mosaicos. Nesse gráfico, como usual, o eixo x é representado pela variável preditora e o eixo y pela resposta. {{:dicas_mat_apoio:analises_dados:mosaico1medio.jpg|}} As áreas nesse gráfico são proporcionais às observações em cada célula da tabela de contingência e dão ideia da contribuição de cada nível do fator no total de observações. ===== Hipótese ===== A hipótese nula em tabelas de contingência é que as variáveis preditoras e resposta são independentes. Ou seja, não há poder preditivo com relação à resposta observada. No caso em questão, a hipótese nula é que não há nenhuma relação entre o ambiente e a perda de área foliar. A nossa hipótese de trabalho nesse caso é saber se as populações de um ambiente tendem a ser mais herbivoradas que outro. ===== O Teste Estatístico ===== **✘2** O primeiro passo é calcular os valores esperados para cada célula da tabela de contingência caso a hipótese nula esteja correta. Ou seja, se não há nenhuma relação entre as variáveis quais valores esperaríamos encontrar. Vamos calcular o valor esperado das populações em relação à herbivoria, no cenário da hipótese nula: Probabilidade de maior herbivoria: igual a frequência de alta herbivoria pelo total de observações 26/73 ou 0,356 Probabilidade de ser uma população da floresta: 33/73 ou 0,452 Probabilidade desse dois eventos ocorrerem juntos: 0,356 x 0,452 = 0,161 Valor esperado é a proporção de 0,161 do total de observacões: 0,161 x 73 = 11,75 Seriam esperados portanto, 11,75 eventos para o valor da primeira célula da tabela de contingência. Note que as propabilidade acima são calculadas através dos totais marginais da tabela de contingência e são independentes do valor observado. Abaixo construímos a tabela de contingência com os valores esperados, o que não implica em mudanças de totais marginais. ** Tabela de contingência com totais marginais e os valores esperados entre parênteses ** ^ ^ Ambiente ^^ ^ ^Herbivoria^ Floresta^ Duna ^ Total Marginal^ ^ Alta | 18 (11,75) | 8 (14,25) ^ 26 ^ ^ Baixa| 15 (21,25) | 32 (25,75) ^ 47 ^ ^ Total Marginal ^ 33 ^ 40 ^ 73 ^ ==== O Teste Qui-Quadrado ==== O clássico teste de **✘2** foi desenvolvido por Pearson, o mesmo do coeficiente de correlação, por isso o teste é chamado também de Qui-Quadrado de Pearson. O cálculo é muito simples e por isso muito popular. Precisamos apenas calcular o quanto os valores observados se distanciam do esperado. Quanto maior a soma desses valores, menor a probabilidade dessa diferença ter sido gerada pelo acaso. ✘2 = ∑ ((observado-esperado)2/esperado) Cálculo de ✘2 para a ocorrência de herbivoria em plantas: Ho = as variáveis são independentes H1 = ambientes diferentes apresentam herbivoria diferenciada. X2 = (18-11,75)^2/11,75 + (8 - 14,25)^2/14,25 + ... X2 = 3,32 + 2,74 + 1,83 + 1,52 X2 = 9,42 Cálculo dos graus de liberdade: df= (no. linhas -1) x (no. colunas -1) df= 1 Para obter o p deve-se consultar uma tabela da distribuição do Qui-Quadrado No caso: p(9.42, 1)=0,002 Como o valor de p é pequeno, podemos rejeitar a hipótese nula de que a herbivoria não está relacionada ao ambiente. E DAI?! ==== Teste G ==== O teste G é uma alternativa ao ✘2 e está baseado na distribuição multinominal de probabilidades. Seu cálculo é baseado na relação entre os valores observados e esperado. G= 2 x ∑ [observado x ln(observado/esperado)] O grau de liberdade e o p são calculados da mesma forma que o ✘2. Para amostras pequenas há um ajuste para o calculo do G que compensar valores observados baixos que tendem a superestimar as diferenças entre valores observados e obtidos. ==== Teste Exato de Fisher ==== Tanto o teste do **✘2 de Pearson** quanto o **G** são teste assimptóticos, ou seja aproximam-se da distribuição do ✘2 para amostras grandes. De fato, uma boa aproximação! Entretanto, Fisher desenvolveu um teste para o cálculo exato do valore de p, desde que os totais marginais da tabela de contingência sejam definidos a priori. Quando ambos totais marginais, de colunas e linhas, são fixos, o cálculo do valor de p exato é concentualmente simples mas computacionalmente intensivo. A valor exato é a probabilidade de obter o valor observado ou valores extremos ao valore esperado, ao acaso, dado os totais marginais fixados. Não vamos apresentar a formula aqui dado que é de dificil computação, entrentanto, calcula exatamente o valor da probabilidade acima descrita.