amostragem                package:nenhum                R Documentation

Amostragem de data frame, com base nos critérios dados pelo usuário

Description:
Estratifica e amostra um data frame grande, com base nas informações fornecidas referentes ao tamanho da amostra desejada, 
a coluna a ser estratificada, as categorias a serem buscadas nas linhas, o tipo de amostragem a ser feito, se a 
amostragem deve ser com reposição e quais colunas do data frame original devem ser excluídas.

Usage:

amostragem(dados,amostra,colun,categ,tipo=c("aleat", "prop"),proporcao=NULL,reposicao=FALSE,remov)

Arguments:

dados:		Dataframe; dados originais a serem amostrados.

amostra:	Numerico positivo; valor sera transformado em integer. Tamanho da amostra a ser gerada (em número de 
		linhas).

colun:		Numerico ou caracter; deve especificar o nome da coluna do dataframe a ser estratificada. Veja 'details'.

categ:		Numerico ou caracter; informações a serem buscadas nas linhas para estratificação.

tipo:		Caracter; tipo de amostragem a ser feita. Veja 'details'.

proporcao:	Numerico; proporcoes a serem seguidas para amostragem (valores informados pelo usuário). Veja 'details'.

reposicao:	Logico; determina se a amostragem é com reposição.

remov:		Numerico ou caracter; colunas a serem removidas do data frame.

Details:

Os argumentos "dados" e "amostra" devem ser obrigatoriamente fornecidos na função.

Se o argumento "colun" não for informado, a amostragem feita sera aleatória. Se "colun" for dado, mas o argumento "categ" 
não, a estratificação sera feita a partir da primeira coluna informada em "colun". A estratificação e amostragem é feita
apenas para uma coluna por vez, portanto se "colun" tiver duas ou mais informações apenas a primeira será considerada.

O argumento "tipo" aceita: "aleat", onde faz amostragem aleatória, e "prop", em que amostra respeitando a proporção 
original das linhas da coluna indicada. Se "tipo" não for informado, o default é fazer amostragem aleatória, caso 
"proporcao" também não tenha sido informado.

O argumento "proporcao" faz amostragem dos dados de acordo com a proporção informada pelo usuário. Os valores numéricos 
inseridos em "proporcao", correspondentes a proporção da amostra para cada categoria, devem seguir a ordem 
crescente/alfabética das categorias. Se "proporcao" não for informado, o default é NULL.

Se "reposição" não for informado, a amostragem é feita sem reposição.

Value:

A função retorna:
		Um dataframe com as linhas amostradas de acordo com as especificações do usuário e colunas que não foram 
		removidas.

Warning:

A função é interrompida e retorna mensagem de erro se "dados" não for um dataframe, e se "amostra" não for um valor 
numérico.

Se o usuário inserir em "proporcao" uma quantidade de valores não compatível com a quantidade de categorias nas linhas a 
função retorna mensagem de erro. Se o usuário inserir valores que nao somam =1 a função também retorna mensagem de erro.

Author(s):

Raquel Monteiro Silva
raquel.monteiro.silva@usp.br

References:

Multinomial distribution. From Wikipedia, the free encyclopedia.
https://en.wikipedia.org/wiki/Multinomial_distribution

See Also:

sample(), rmultinom(), subset()

Examples:

#criando vetores para formar o data frame
tipo_doc<-rep(letters,len=100)
id_doc<-round(abs(rnorm(100,2,1)),4)
local<-rep(1:7,each=3,len=100)
ano<-c(rep(2013,20),rep(2014,14),rep(2015,30),rep(2016,26),rep(2017,10))

#criando o data frame de exemplo
df<-data.frame(tipo_doc,id_doc,local,ano)

amostragem(df,amostra=10,categ=c(2013,2015),reposicao=TRUE)
amostragem(df,amostra=15,tipo="prop")  ##como "colun" não foi informado, mensagem de aviso emitida
amostragem(df,amostra=10,colun="local", tipo="prop",remov="id_doc",reposicao=TRUE)
amostragem(df,amostra=15,colun="local",proporcao=c(0.2,0.2,0.3,0.3))  ##erro na definição das proporcões

##amostragem com proporção dada, apenas para a primeira coluna informada
amostragem(df,amostra=12,colun=c("ano","tipo_doc"),categ=c(2016,2017),proporcao=c(0.3,0.7))

##é necessário que a coluna que você deseja amostrar seja da mesma classe que as informações forncecidas para a função
df$tipo_doc<-as.character(df$tipo_doc)
amostragem(df,amostra=10,colun="tipo_doc",categ=c("r","a","q","u","e","l"))