dicas_mat_apoio:analises_dados:anal_cat

Análise de Dados Categóricos

Alexandre Adalardo 2008/12/31 13:41

Esta página wiki é baseado largamente no livro “A Primer of Ecological Statistics” de Nicholas Gotelli, mesmo autor de “A Primer of Ecology”, que dispensa maiores apresentações, com co-autoria de Aaron Ellison (the last but not the least! sorry Aaron!!).

Esse material foi produzido para uma aula introdutória sobre o análise de dados categóricos em um curso de campo, portanto bastante básica, mas pretendo incluir mais material futuramente.

O estado da variável está relacionado a diferentes níveis que pode ser ordenado ou não.

Não ordenados:

sexo (masculino,feminino, outros), ambiente (capoeira, floresta, campo), nome do fragmento (A, B, C)

Ordenados:

classes de luminosidade (alta, média, baixa),

tamanho de fragmento (pequeno, médio, grande)

Quando a variável preditora (independente) é categórica e a variável resposta (dependente) também, analisamos os dados através de tabelas de contingência.

  1. Uma variável preditora temos:
    1. 2,
    2. teste G,
    3. Teste exato de Fisher
  2. Mais do que uma variável preditora
    1. OUTRA AULA

Aqui vamos tratar apenas do primeiro caso, com apenas uma variável preditora, com a premissa de que apenas uma variável é capaz de prever os resultados, ou que com apenas uma variável explica grande parte da variação encontrada nos dados.

Em nossos exemplos utilizaremos um conjunto de dados relacionado à herbivoria (alta, baixa) de populações de plantas em dois ambientes de restinga (duna e floresta)

  • Plantas da Restinga

Dado 73 populações de espécies de plantas em dois ambientes, classificamos cada população quanto à perda de área foliar(alta ou baixa).

Uma forma de apresentar uma síntese desses dados e com uso de tabela de contingência, como segue:

AMBIENTE
Herbivoria Floresta Duna
Alta 18 8
Baixa 15 32

Uma outra forma de apresentar esses dados é através de um gráfico de mosaicos. Nesse gráfico, como usual, o eixo x é representado pela variável preditora e o eixo y pela resposta.

As áreas nesse gráfico são proporcionais às observações em cada célula da tabela de contingência e dão ideia da contribuição de cada nível do fator no total de observações.

A hipótese nula em tabelas de contingência é que as variáveis preditoras e resposta são independentes. Ou seja, não há poder preditivo com relação à resposta observada. No caso em questão, a hipótese nula é que não há nenhuma relação entre o ambiente e a perda de área foliar. A nossa hipótese de trabalho nesse caso é saber se as populações de um ambiente tendem a ser mais herbivoradas que outro.

2

O primeiro passo é calcular os valores esperados para cada célula da tabela de contingência caso a hipótese nula esteja correta. Ou seja, se não há nenhuma relação entre as variáveis quais valores esperaríamos encontrar.

Vamos calcular o valor esperado das populações em relação à herbivoria, no cenário da hipótese nula:

Probabilidade de maior herbivoria: igual a frequência de alta herbivoria pelo total de observações

26/73 ou 0,356 

Probabilidade de ser uma população da floresta: 

33/73 ou 0,452 

Probabilidade desse dois eventos ocorrerem juntos: 

0,356 x 0,452 = 0,161 

Valor esperado é a proporção de 0,161 do total de observacões:

0,161 x 73 = 11,75

Seriam esperados portanto, 11,75 eventos para o valor da primeira célula da tabela de contingência.

Note que as propabilidade acima são calculadas através dos totais marginais da tabela de contingência e são independentes do valor observado. Abaixo construímos a tabela de contingência com os valores esperados, o que não implica em mudanças de totais marginais.

Tabela de contingência com totais marginais e os valores esperados entre parênteses

Ambiente
Herbivoria Floresta Duna Total Marginal
Alta 18 (11,75) 8 (14,25) 26
Baixa 15 (21,25) 32 (25,75) 47
Total Marginal 33 40 73

O clássico teste de 2 foi desenvolvido por Pearson, o mesmo do coeficiente de correlação, por isso o teste é chamado também de Qui-Quadrado de Pearson. O cálculo é muito simples e por isso muito popular. Precisamos apenas calcular o quanto os valores observados se distanciam do esperado. Quanto maior a soma desses valores, menor a probabilidade dessa diferença ter sido gerada pelo acaso.

2 = ∑ ((observado-esperado)2/esperado)

Cálculo de ✘2 para a ocorrência de herbivoria em plantas: 

Ho = as variáveis são independentes
H1 = ambientes diferentes apresentam herbivoria diferenciada.

X2 = (18-11,75)^2/11,75 + (8 - 14,25)^2/14,25  + ...

X2 = 3,32 + 2,74 + 1,83 + 1,52

X2 = 9,42

Cálculo dos graus de liberdade:

df= (no. linhas -1) x (no. colunas -1)
df= 1

Para obter o p deve-se consultar uma tabela da distribuição do Qui-Quadrado
No caso:
p(9.42, 1)=0,002

Como o valor de p é pequeno, podemos rejeitar a hipótese nula de que a herbivoria não está relacionada ao ambiente.

E DAI?!

O teste G é uma alternativa ao ✘2 e está baseado na distribuição multinominal de probabilidades. Seu cálculo é baseado na relação entre os valores observados e esperado.

G= 2 x ∑ [observado x ln(observado/esperado)]

O grau de liberdade e o p são calculados da mesma forma que o ✘2.

Para amostras pequenas há um ajuste para o calculo do G que compensar valores observados baixos que tendem a superestimar as diferenças entre valores observados e obtidos.

Tanto o teste do 2 de Pearson quanto o G são teste assimptóticos, ou seja aproximam-se da distribuição do ✘2 para amostras grandes. De fato, uma boa aproximação! Entretanto, Fisher desenvolveu um teste para o cálculo exato do valore de p, desde que os totais marginais da tabela de contingência sejam definidos a priori.

Quando ambos totais marginais, de colunas e linhas, são fixos, o cálculo do valor de p exato é concentualmente simples mas computacionalmente intensivo. A valor exato é a probabilidade de obter o valor observado ou valores extremos ao valore esperado, ao acaso, dado os totais marginais fixados.

Não vamos apresentar a formula aqui dado que é de dificil computação, entrentanto, calcula exatamente o valor da probabilidade acima descrita.

  • dicas_mat_apoio/analises_dados/anal_cat.txt
  • Última modificação: 2016/05/10 10:20
  • por 127.0.0.1