amostragem package:nenhum R Documentation Amostragem de data frame, com base nos critérios dados pelo usuário Description: Estratifica e amostra um data frame grande, com base nas informações fornecidas referentes ao tamanho da amostra desejada, a coluna a ser estratificada, as categorias a serem buscadas nas linhas, o tipo de amostragem a ser feito, se a amostragem deve ser com reposição e quais colunas do data frame original devem ser excluídas. Usage: amostragem(dados,amostra,colun,categ,tipo=c("aleat", "prop"),proporcao=NULL,reposicao=FALSE,remov) Arguments: dados: Dataframe; dados originais a serem amostrados. amostra: Numerico positivo; valor sera transformado em integer. Tamanho da amostra a ser gerada (em número de linhas). colun: Numerico ou caracter; deve especificar o nome da coluna do dataframe a ser estratificada. Veja 'details'. categ: Numerico ou caracter; informações a serem buscadas nas linhas para estratificação. tipo: Caracter; tipo de amostragem a ser feita. Veja 'details'. proporcao: Numerico; proporcoes a serem seguidas para amostragem (valores informados pelo usuário). Veja 'details'. reposicao: Logico; determina se a amostragem é com reposição. remov: Numerico ou caracter; colunas a serem removidas do data frame. Details: Os argumentos "dados" e "amostra" devem ser obrigatoriamente fornecidos na função. Se o argumento "colun" não for informado, a amostragem feita sera aleatória. Se "colun" for dado, mas o argumento "categ" não, a estratificação sera feita a partir da primeira coluna informada em "colun". A estratificação e amostragem é feita apenas para uma coluna por vez, portanto se "colun" tiver duas ou mais informações apenas a primeira será considerada. O argumento "tipo" aceita: "aleat", onde faz amostragem aleatória, e "prop", em que amostra respeitando a proporção original das linhas da coluna indicada. Se "tipo" não for informado, o default é fazer amostragem aleatória, caso "proporcao" também não tenha sido informado. O argumento "proporcao" faz amostragem dos dados de acordo com a proporção informada pelo usuário. Os valores numéricos inseridos em "proporcao", correspondentes a proporção da amostra para cada categoria, devem seguir a ordem crescente/alfabética das categorias. Se "proporcao" não for informado, o default é NULL. Se "reposição" não for informado, a amostragem é feita sem reposição. Value: A função retorna: Um dataframe com as linhas amostradas de acordo com as especificações do usuário e colunas que não foram removidas. Warning: A função é interrompida e retorna mensagem de erro se "dados" não for um dataframe, e se "amostra" não for um valor numérico. Se o usuário inserir em "proporcao" uma quantidade de valores não compatível com a quantidade de categorias nas linhas a função retorna mensagem de erro. Se o usuário inserir valores que nao somam =1 a função também retorna mensagem de erro. Author(s): Raquel Monteiro Silva raquel.monteiro.silva@usp.br References: Multinomial distribution. From Wikipedia, the free encyclopedia. https://en.wikipedia.org/wiki/Multinomial_distribution See Also: sample(), rmultinom(), subset() Examples: #criando vetores para formar o data frame tipo_doc<-rep(letters,len=100) id_doc<-round(abs(rnorm(100,2,1)),4) local<-rep(1:7,each=3,len=100) ano<-c(rep(2013,20),rep(2014,14),rep(2015,30),rep(2016,26),rep(2017,10)) #criando o data frame de exemplo df<-data.frame(tipo_doc,id_doc,local,ano) amostragem(df,amostra=10,categ=c(2013,2015),reposicao=TRUE) amostragem(df,amostra=15,tipo="prop") ##como "colun" não foi informado, mensagem de aviso emitida amostragem(df,amostra=10,colun="local", tipo="prop",remov="id_doc",reposicao=TRUE) amostragem(df,amostra=15,colun="local",proporcao=c(0.2,0.2,0.3,0.3)) ##erro na definição das proporcões ##amostragem com proporção dada, apenas para a primeira coluna informada amostragem(df,amostra=12,colun=c("ano","tipo_doc"),categ=c(2016,2017),proporcao=c(0.3,0.7)) ##é necessário que a coluna que você deseja amostrar seja da mesma classe que as informações forncecidas para a função df$tipo_doc<-as.character(df$tipo_doc) amostragem(df,amostra=10,colun="tipo_doc",categ=c("r","a","q","u","e","l"))