* [[cursos:planeco:roteiro:05-descrcmdr|{{:planeco:logorcmdr01.png?20|}}]] * [[cursos:planeco:roteiro:05-descr|{{:planeco:rlogo.png?20|}}]] =====ANÁLISES EXPLORATÓRIAS DE DADOS===== {{section>cursos:planeco:roteiro:05-descr_base#analises_exploratorias_de_dados}} ===== Preparação dos dados e programa ===== Neste roteiro iremos utilizar o Rcommander (se você nunca o utilizou veja [[cursos:planeco:roteiro:00-rcmdr|aqui]]). {{section>cursos:planeco:roteiro:05-descr_base#preparacao_dos_dados_e_programa}} 2) Abra o Rcommander. 3) Vá no menu **Arquivo > Altere o diretório de trabalho...** e selecione o diretório/pasta que você acabou de criar 4) Importe o conjunto de dados "univar.csv" para o Rcommander por meio dos menus: **"Dados > Importar arquivos de dados > de arquivo texto, clipboard, URL"**. Vai aparecer a janela abaixo, na qual você deve: - digitar o nome do conjunto de dados (use o nome **univar**); - especificar o separador de campo, que para esses arquivos deve ser "Commas[,]". - clicar no botão "OK" As outras opções para estes dados são desnecessárias. {{ :planeco:roteiro:importar_dados_rcmdr.png?300 |}} 5) Use o botão **"Ver conjunto de dados"** que vai aparecer na parte de cima da tela inicial do R commander. Observe como são os dados brutos. \\ \\ =====ANALISANDO VARIÁVEIS INDIVIDUAIS===== ====OLHANDO OS VALORES==== Inspecione o resumo dos dados pelo menu: **"Estatísticas > Resumos > Conjunto de dados ativo"**. Na janela inferior do Rcommander aparecerão os valores referentes a cada variável do conjunto de dados. {{section>cursos:planeco:roteiro:05-descr_base#conhecendo_os_dados}} \\ \\ ====ANÁLISES GRÁFICAS==== {{section>cursos:planeco:roteiro:05-descr_base#analises_graficas}} No, Rcommander vá ao menu **"Gráficos > Histograma..."** e faça os histogramas para as variáveis **BIOMASSA_AVE** e **COMPRIMENTO_BICO**. Por enquanto, não modifique nenhum parâmetro. {{section>cursos:planeco:roteiro:05-descr_base#histograma}} Para modificar o número de classes, volte ao menu **"Gráficos > Histograma..."** e selecione a variável, mas antes de dar **Ok**, vá na aba **Opções** e defina o número de classes. Refaça, para as duas variáveis indicadas acima, os gráficos com 5 classes e com 20 classes. {{section>cursos:planeco:roteiro:05-descr_base#densidade}} Vá ao menu **"Gráficos > Estimativas de densidade"** e faça os gráficos para as variáveis. Não é necessário modificar nenhum parâmetro na aba **Opções**. Repare que na parte inferior do gráfico, aparecem as posições dos dados reais (pequenos riscos verticais). {{section>cursos:planeco:roteiro:05-descr_base#boxplot}} {{section>cursos:planeco:roteiro:05-descr_base#boxplot2}} \\ \\ Mas, podemos usar a opção *Boxplot* do Rcommander para facilitar. Vá ao menu **Gráficos > Boxplot**, selecione a variável COMPRIMENTO_BICO e aperte OK. {{section>cursos:planeco:roteiro:05-descr_base#outliers}} {{section>cursos:planeco:roteiro:05-descr_base#boxplot3}} /* Volte ao menu de **"Gráficos>Boxplot"**. Na janela aberta, escolha a váriável BIOMASSA_INSETOS, clique no botão **Gráfico por grupos...**, e selecione o grupo NIVEL_DISTURBIO. */ {{section>cursos:planeco:roteiro:05-descr_base#boxplot4}} /* Porém, no R Commander não temos essa opção diretamente para os gráficos box-plots. Então, teremos que inserir manualmente: Copie e cole o comando abaixo dentro da janela "R Script" (a janela superior da tela inicial do R Commander) Boxplot(BIOMASSA_INSETOS~NIVEL_DISTURBIO, data=univar1, id.method="y", notch=TRUE) Selecione toda essa linha dentro da janela "R Script" e depois aperte o botão **"Submeter"** (localizado do lado direito e abaixo da janela "R script") **E agora, você está mais seguro(a) para afirmar se a biomassa de insetos difere ou não entre os dois níveis de distúrbio?** */ \\ \\ ====CHECANDO O AJUSTE DOS DADOS A UMA DISTRIBUIÇÃO==== {{section>cursos:planeco:roteiro:05-descr_base#checando_o_ajuste_dos_dados_a_uma_distribuicao}} \\ Quando fizermos um gráfico quantil-quantil pela opção "**Gráfico de comparação de quantis**" no Rcommander ele ficará com a seguinte aparência: {{ :cursos:planeco:roteiro:qqlot_fluxo_nascentes_exemplo.png?400 |}} No eixo X estão os valores esperados pela distribuição normal padronizada, em unidades de desvios-padrão. No eixo Y estão os valores dos dados observados para cada quantil. A maior parte dos programas traça uma linha diagonal que traz os valores esperados para cada quantil se os valores observados se adequarem perfeitamente((bem, devemos confessar que não é tão perfeitamente assim. A maior parte dos programas e também o Rcommander, usam uma correção para evitar desvios muito grandes nas extremidades. Essa correção é baseada nos principais quartis (Q1 e Q3), mas não vamos detalhar aqui como ela é feita)) à distribuição normal. Essa linha serve apenas como um guia para auxiliar a visualização. Desvios de uma distribuição normal estarão indicados por pontos distantes dessa linha. Vamos então aplicar isso no Rcommander: vá no menu **Gráficos > Gráfico de comparação de quantis...**. Faça os gráficos para as variáveis **BIOMASSA_AVE** e **COMPRIMENTO_BICO**. {{section>cursos:planeco:roteiro:05-descr_base#qqplot2}} ====AVALIANDO DEPENDÊNCIA==== {{section>cursos:planeco:roteiro:05-descr_base#avaliando_autocorrelacao}} Importe o conjunto de dados "autocorr.csv" e coloque o nome do arquivo de dados como **"autocorr"**. Infelizmente, no Rcommander ainda não existe uma opção para fazer os gráficos de autocorrelação espacial, então, nós vamos copiar e colar o comando abaixo para a janela "R Script" (a janela superior do Rcommander) e vamos clicar em **Submeter**. Primeiro para o transecto x1: lag.plot(autocorr$x1, do.lines = FALSE, lags=1, layout= c(1,1), diag=FALSE) Depois para o transecto x2: lag.plot(autocorr$x2, do.lines = FALSE, lags=1, layout= c(1,1), diag=FALSE) {{section>cursos:planeco:roteiro:05-descr_base#autocorr2}} =====ANALISANDO RELAÇÕES ENTRE VARIÁVEIS===== ====ANALISANDO DADOS BIVARIADOS==== {{section>cursos:planeco:roteiro:05-descr_base#analisando_dados_bivariados}} Para fazer o gráfico de dispersão vá para o menu **"Gráficos > Diagrama de dispersão"**. Inicialmente, escolha como variável x a coluna **x.l** e como variável y a coluna **y.l**. {{section>cursos:planeco:roteiro:05-descr_base#bivariado2}} Vamos voltar ao menu **"Gráficos > Diagrama de dispersão"**, selecionar as variáveis e depois, na aba "Opções", vamos marcar as caixas **Boxplots marginais** (que mostra a distribuição dos dados de cada uma das variáveis nas laterais), **Smooth line** (que vai traçar a linha //lowess//) e **Mostre espelhamento (spread)** (que vai indicar onde está concentrada a maior parte dos dados em relação à **Smooth line**) . {{section>cursos:planeco:roteiro:05-descr_base#bivariado3}} {{section>cursos:planeco:roteiro:05-descr_base#bivariado4}} **Dentre as informações que foram adicionadas por essas opções, quais você considera mais importantes destacar?** \\ ====INSPECIONANDO POSSÍVEIS INTERAÇÕES==== Muitas vezes estamos interessados em analisar a relação entre duas variáveis, mas sabemos de antemão que outros fatores podem afetar essa relação e precisaremos, então, considerar esses outros fatores nas análises estatísticas que faremos. Entretanto, muitas vezes, na hora de realizar as análises exploratórias dos dados, esses fatores e as interações entre eles são esquecidas. Vamos agora fazer a inspeção das relações entre variáveis para um conjunto de dados com essas características. Vamos utilizar o conjunto de dados "fluxo_ppt.csv". Esse conjunto de dados foi "coletado"((na verdade foi simulado para o trabalho final da disciplina em um ano anterior)) com o objetivo de avaliar a relação entre a quantidade de chuva e o fluxo de água em nascentes localizadas em uma região com diferentes mosaicos vegetacionais (áreas com predominância de matas nativas, pastos ou plantios de eucalipto). As coletas foram realizadas em duas estações do ano (verão e inverno). Ao importarmos esse arquivo para o Rcommander, daremos o nome de **fluxo_ppt** (obs. nesse caso será especialmente importante colocar __exatamente__ esse nome no Rcommander) Inicialmente vamos inspecionar a relação geral entre a quantidade de chuva e o fluxo de água das nascentes. Para isso, vá ao menu **"Gráficos > Diagrama de dispersão"** e selecione a variável "chuva" como variável-x e "fluxo" como variável-y. Adicione aquelas três opções que ajudam a inspeção, conforme indicamos anteriormente. **Descreva brevemente os aspectos principais da relação que você visualiza com esse gráfico** Porém, como dissemos acima, não podemos esquecer que na nossa hipótese original consideramos que o tipo de vegetação predominante e a estação do ano poderiam interferir nessa relação entre a quantidade de chuva que chega ao solo e o fluxo de água observado nas nascentes existentes em cada tipo de área. Então, precisamos fazer essa inspeção da relação entre chuva e fluxo para os conjuntos de dados separados pelos fatores que queremos considerar. Para isso, vamos usar um novo tipo de gráfico. Vá ao menu **"Gráficos > gráfico XY (dispersão) condicionado..."**. Para //Variáveis explicativas// selecione "chuva", para //Variáveis resposta// selecione "fluxo" e para //Condições// selecione as duas variáveis ("estacao" e "vegetacao"). Para selecionar as duas mantenha apertada a tecla "Shift". Não selecione nada para "Grupos". Se tudo deu certo você verá um painel com 6 gráficos mostrando as combinações dos diferentes níveis de fatores. Apesar de já ser possível ter uma ideia das tendências dos dados para cada combinação, você provavelmente está sentindo falta na nossa "smooth line", certo? Infelizmente o Rcommander não tem essa opção para esse tipo de gráfico, mas vamos dar um jeito! Copie o código abaixo e cole na última linha da janela superior (R Script) do Rcommander: xyplot(fluxo ~ chuva | estacao + vegetacao, type=c("p","smooth"), pch=16, auto.key=list(border=TRUE), par.settings=simpleTheme(pch=16), scales=list(x=list(relation='same'), y=list(relation='same')), data=fluxo_ppt) **Obs.: Repare que a única mudança foi que o argumento //type="p"//, foi modificado para //type=c("p","smooth")//** Na janela R Script, selecione todas as linhas referentes a esse código que foi colado e aperte o botão "Submeter". Se tudo deu certo, cada gráfico nesse painel terá agora uma "smooth line" para ajudar a entender as tendências. **Quais combinações de tratamento mostram tendências diferentes das demais? Essas diferenças sugerem a presença de interações entre fatores ou apenas diferenças de interceptos? Explique.** Para entender os potenciais problemas de não incorporar os fatores e suas possíveis interações, compare os gráficos desse painel com o gráfico obtido apenas pela relação entre fluxo X chuva, feito anteriormente. Se desejar se aprofundar um pouco mais, refaça os gráficos condicionais, mas selecionando apenas um dos fatores (estacao ou vegetacao) de cada vez. Se precisar de ajuda, avise. \\ \\ ====TRANSFORMANDO OS DADOS==== {{section>cursos:planeco:roteiro:05-descr_base#transformando_os_dados}} Vamos voltar aos dados **univar**. Você não precisa importar novamente os dados. Para o Rcommander, basta clicar no botão em que aparece o nome dos conjuntos de dados na tela inicial do Rcommander e selecionar o conjunto **univar**. Depois disso, faça o **Diagrama de dispersão** entre as variáveis TAMANHO_SEMENTES como variável-x e COMPRIMENTO_BICO como variável-y e inclua as opções de boxplots marginais, smooth line e espalhamento. Como podemos observar, a forma da relação não se assemelha a uma reta. Lembrando que nosso interesse é entender a variação na nossa variável resposta (eixo Y), é mais adequado aplicar a transformação nessa variável. Então, vamos transformar os dados de COMPRIMENTO_BICO pelo logaritmo natural e ver se o ajuste melhora. Para isso, refaça o **Diagrama de dispersão**, mas antes de apertar "OK", vá na aba Opção e clique também em **log eixo-y**, além das opções indicadas anteriormente. {{section>cursos:planeco:roteiro:05-descr_base#transforma2}} =====EXERCÍCIO ===== Importe o conjunto de dados "final_aed.csv" e coloque o nome **final_aed** no Rcommander. {{ :cursos:planeco:roteiro:final_aed.csv |final_aed.csv}} Esse conjunto de dados((simulados)) se refere ao ganho de peso de uma espécie de peixes onívoros em função da composição de sua dieta e da adição de um suplemento alimentar nos tanques experimentais. Cada peixe estava em um tanque diferente e os tanques foram colocados em posições aleatórias na área experimental. Em todos os tanques a oferta de alimento era idêntica, com as mesmas proporções de itens bastante variados (considerando que se trata de uma espécie onívora). * A variável **dif.peso** se refere à diferença de peso de cada peixe antes e depois da realização do estudo. * A variável **prop.gordura** se refere à proporção de gordura contida nos alimentos que estavam no conteúdo estomacal do peixe no final do estudo. * A variável **suplemento** define duas marcas diferentes de suplemento alimentar, que chamamos de "A" e "B", em função de sigilo industrial O objetivo inicial do estudo é analisar se algum dos suplementos produz um maior aumento no peso médio dos peixes. **Até a próxima aula: \\ 1) Faça uma análise exploratória desses dados, usando os métodos que você aprendeu na disciplina e apresente os gráficos e/ou tabelas que vocês considerarem mais importantes para uma boa compreensão dos dados coletados e das relações entre eles. \\ 2) Identifique e apresente os aspectos desse conjunto de dados que você gostaria de destacar a partir dessa análise exploratória.**