* [[cursos:planeco:planeco:roteiro:05-descrcmdr|{{:planeco:logorcmdr01.png?20|}}]] * [[cursos:planeco:planeco:roteiro:05-descr|{{:planeco:rlogo.png?20|}}]] =====ANÁLISES EXPLORATÓRIAS DE DADOS===== {{section>cursos:planeco:planeco:roteiro:05-descr_base#analises_exploratorias_de_dados}} ==== Preparação dos dados e programa ==== As análises abaixo serão realizadas em ambiente R e para isso teremos que instalar alguns pacotes, abaixo estão todos os comandos necessários para a realização da atividade. 1) Crie um diretório (pasta), copie os arquivos de dados abaixo para esse diretório e faça a descompactação no mesmo diretório: * {{ :planeco:roteiro:univar1.csv.zip |univar.zip}} * {{ :planeco:roteiro:autocorr.csv.zip|autocorr.zip}} 2) Abra o R no seu computador e mude o diretório de trabalho para o diretório (//i.e.// a pasta) que você criou, usando o menu **//Arquivo//** > **//mudar dir...//**. 3) Instale os pacotes //car// e //lattice//. Para isso, basta copiar e colar os comandos que estão nas caixas de cor cinza: install.packages("car") Espere finalizar todo o processo de instalação desse pacote para iniciar o próximo: install.packages("lattice") 4) Agora carregue os pacotes: library(car) library(lattice) library (graphics) ==== ANALISANDO DADOS UNIVARIADOS ==== 1) importe o conjunto de dados para o R univar1<-read.csv("univar1.csv") 2) Use a função //head// para visualizar as 5 primeiras linhas do conjunto de dados head(univar1) 3) Inspecione o resumo dos dados summary(univar1) === Conhecendo os dados: === {{section>cursos:planeco:planeco:roteiro:05-descr_base#conhecendo_os_dados}} 4) Se quiser, visualize o conjunto de dados como uma planilha convencional edit(univar1) ==== Análises gráficas ==== {{section>cursos:planeco:planeco:roteiro:05-descr_base#analises_graficas}} par(mfrow = c(2,2)) ##Aqui estamos criando um layout para colocar os quatro gráficos juntos hist(univar1$COMPRIMENTO_BICO) hist(univar1$BIOMASSA_AVE) hist(univar1$BIOMASSA_INSETOS) hist(univar1$TAMANHO_SEMENTES) par(mfrow=c(1,1)) ## voltando ao padrão de apresentar apenas 1 gráfico por página {{section>cursos:planeco:planeco:roteiro:05-descr_base#histograma}} #use o argumento breaks para determinar o número de classes par(mfrow = c(2,2)) hist(univar1$COMPRIMENTO_BICO, breaks = 20) hist(univar1$BIOMASSA_AVE, breaks = 20) hist(univar1$BIOMASSA_INSETOS, breaks = 20) hist(univar1$TAMANHO_SEMENTES, breaks = 20) par(mfrow=c(1,1)) par(mfrow = c(2,2)) hist(univar1$COMPRIMENTO_BICO, breaks = 10) hist(univar1$BIOMASSA_AVE, breaks = 10) hist(univar1$BIOMASSA_INSETOS, breaks = 10) hist(univar1$TAMANHO_SEMENTES, breaks = 10) par(mfrow=c(1,1)) {{section>cursos:planeco:planeco:roteiro:05-descr_base#densidade}} par(mfrow = c(2,2)) plot(density(univar1$COMPRIMENTO_BICO)) plot(density(univar1$BIOMASSA_AVE)) plot(density(univar1$BIOMASSA_INSETOS)) plot(density(univar1$TAMANHO_SEMENTES)) par(mfrow=c(1,1)) Podemos juntar esses dois gráficos em um só. Para isso, use o código abaixo: par(mfrow = c(2,2)) hist(univar1$COMPRIMENTO_BICO, prob=T ) lines(density(univar1$COMPRIMENTO_BICO)) hist(univar1$BIOMASSA_AVE, prob=T) lines(density(univar1$BIOMASSA_AVE)) hist(univar1$BIOMASSA_INSETOS, prob=T) lines(density(univar1$BIOMASSA_INSETOS)) hist(univar1$TAMANHO_SEMENTES, prob=T) lines(density(univar1$TAMANHO_SEMENTES)) par(mfrow=c(1,1)) Podemos também mostrar, na parte inferior do gráfico de densidade, o número de observações em cada faixa do gráfico. Para isso vamos usar a função //rug()// par(mfrow = c(2,2)) plot(density(univar1$COMPRIMENTO_BICO)) rug(univar1$COMPRIMENTO_BICO, side=1) plot(density(univar1$BIOMASSA_AVE)) rug(univar1$BIOMASSA_AVE, side=1) plot(density(univar1$BIOMASSA_INSETOS)) rug(univar1$BIOMASSA_INSETOS, side=1) plot(density(univar1$TAMANHO_SEMENTES)) rug(univar1$TAMANHO_SEMENTES, side=1) par(mfrow=c(1,1)) Todas essas informações nos auxiliam para identificarmos a quais distribuições teóricas nossos dados se ajustam. {{section>cursos:planeco:planeco:roteiro:05-descr_base#boxplot}} (sort(univar1$COMPRIMENTO_BICO)) {{section>cursos:planeco:planeco:roteiro:05-descr_base#boxplot2}} Mas temos uma função que faz isso por nós: boxplot(univar1$COMPRIMENTO_BICO, range=0) {{section>cursos:planeco:planeco:roteiro:05-descr_base#outliers}} Vamos fazer um boxplot modificado com os nossos dados de COMPRIMENTO_BICO boxplot(univar1$COMPRIMENTO_BICO) {{section>cursos:planeco:planeco:roteiro:05-descr_base#boxplot3}} boxplot(univar1$BIOMASSA_INSETOS ~ univar1$NIVEL_DISTURBIO) {{section>cursos:planeco:planeco:roteiro:05-descr_base#boxplot4}} boxplot(univar1$BIOMASSA_INSETOS ~ univar1$NIVEL_DISTURBIO, notch=TRUE) **E agora, você está mais seguro(a) para afirmar se a biomassa de insetos difere ou não entre os dois níveis de distúrbio?** ==== CHECANDO O AJUSTE DOS DADOS A UMA DISTRIBUIÇÃO ==== {{section>cursos:planeco:planeco:roteiro:05-descr_base#checando_o_ajuste_dos_dados_a_uma_distribuicao}} Vamos então aplicar as funções abaixo aos nossos dados: par(mfrow = c(2,2)) qqnorm(univar1$COMPRIMENTO_BICO) qqline(univar1$COMPRIMENTO_BICO) qqnorm(univar1$BIOMASSA_AVE) qqline(univar1$BIOMASSA_AVE) qqnorm(univar1$BIOMASSA_INSETOS) qqline(univar1$BIOMASSA_INSETOS) qqnorm(univar1$TAMANHO_SEMENTES) qqline(univar1$TAMANHO_SEMENTES) par(mfrow=c(1,1)) {{section>cursos:planeco:planeco:roteiro:05-descr_base#qqplot2}} ==== AVALIANDO AUTOCORRELAÇÃO ==== Para essa parte do tutorial, importe o conjunto de dados "autocorr.csv" para o R e inspecione os dados: autocorr<-read.csv("autocorr.csv") head(autocorr) summary(autocorr) {{section>cursos:planeco:planeco:roteiro:05-descr_base#avaliando_autocorrelacao}} lag.plot(autocorr$x1, do.lines = FALSE, diag=FALSE) lag.plot(autocorr$x2, do.lines = FALSE, diag=FALSE) {{section>cursos:planeco:planeco:roteiro:05-descr_base#autocorr2}} ==== ANALISANDO DADOS BIVARIADOS ==== {{section>cursos:planeco:planeco:roteiro:05-descr_base#analisando_dados_bivariados}} bivar<-read.csv("bivar.csv") head(bivar) summary (bivar) plot(bivar$y.l ~ bivar$x.l) {{section>cursos:planeco:planeco:roteiro:05-descr_base#bivariado2}} plot(bivar$y.l ~ bivar$x.l) lines(lowess(bivar$y.l ~ bivar$x.l)) {{section>cursos:planeco:planeco:roteiro:05-descr_base#bivariado3}} plot(bivar$y.n ~ bivar$x.n) lines(lowess(bivar$y.n ~ bivar$x.n)) {{section>cursos:planeco:planeco:roteiro:05-descr_base#bivariado4}} #grafico do pacote car scatterplot (bivar$y.l ~ bivar$x.l) scatterplot (bivar$y.n ~ bivar$x.n) ==== Transformando os dados ==== {{section>cursos:planeco:planeco:roteiro:05-descr_base#transformando_os_dados}} scatterplot(univar1$COMPRIMENTO_BICO ~ univar1$BIOMASSA_AVE) Como podemos observar pelos boxplots laterais, nesse caso, aparentemente são os dados da variável Y que parecem estar afetando a linearidade da relação. Então, vamos transformar os dados de Y pelo logaritmo natural e ver se o ajuste melhora. scatterplot (log(univar1$COMPRIMENTO_BICO) ~ univar1$BIOMASSA_AVE) {{section>cursos:planeco:planeco:roteiro:05-descr_base#transforma2}}