busca package:unknown R Documentation ~~Função que busca uma palavra ou pedaço de palavra em um texto no formato “.txt” ~~ Description: ~~ Uma busca de termos ou palavras em um texto de origem. ~~ Usage: ~~busca <- function(x, file, exato= FALSE, sep=" ", encoding="unknown", ignore.acento= FALSE) ~~ Arguments: ~~ x padrão de busca: palavra ou termo a ser buscado. file arquivo .txt em que se deseja realizar a busca. exato se FALSE, busca quaisquer palavras que contenham o padrão de busca indicado. Se TRUE, busca o termo exatamente como foi escrito. sep por padrão, o texto será separado palavra por palavra (separador é um espaço. encoding tipo de encoding do arquivo.txt indicado. Se o padrão for “latin1” ou “UTF-8”, a leitura será realizada com os caracteres desses padrões. ignore.acento se FALSE, busca caracteres especiais. Se TRUE, ignora acentos ou caracteres especiais tanto do padrão de busca indicado, quanto do texto a ser lido. ~~ Details: ~~ A função lê apenas arquivos e o vetor resultante será da classe “character”. Caso o separador indicado seja diferente de espaço, a função retornará também o resultado com esse separador. Essa característica permite que o usuário identifique prontamente quais as palavras correspondentes ao padrão de busca e realizar cálculos de frequência. Separadores comuns são: “\n” para fim de linha, “\t” para tabulação, “.” para ponto final. A função não permite que o usuário substitua o encoding de um texto. O original usado deve estar em um padrão conhecido e aceito pelo r. Sugere-se “UTF-8” como padrão de gravação de arquivos. ~~ Value: ~ Se o separador for espaço, a função retorna a posição e termo encontrado na busca em um data.frame. Além disso, retorna em uma frase o resumo do total de ocorrências encontrado. Se o separador for diferente de espaço, a função retorna duas listas. A primeira com a posição e a linha de ocorrência em um data.frame e o resumo de linhas que continhas o termo buscado. A segunda lista retorna a posição e termo encontrado na busca em um data.frame. Além disso, retorna em uma frase o resumo do total de ocorrências encontrado. Note: ~~ Os possíveis erros encontrados se relacionam com problemas de encoding do arquivo fonte. Uma forma simples de resolver tal problema é criar uma nova cópia do arquivo, com o .txt de encoding UTF-8. Arquivos originais de word não são salvos nesse enconding, mas é possível modificá-lo no salvamento do .txt. ~ Author(s): ~~Renata de Paula Orofino~~ References: ~https://stat.ethz.ch/R-manual/R-devel/library/base/html/Encoding.html http://www.joelonsoftware.com/articles/Unicode.html ~ See Also: ~~ scan() para compreender como a leitura do arquivo texto foi realizada ~~~ Examples: ##Arquivo texto para uso nos exemplos em: http://ecologia.ib.usp.br/bie5782/doku.php?id=bie5782:01_curso_atual:alunos:trabalho_final:renata.paula.silva:start ##Busca de termo com separador espaço e ignorando acentos > busca(x="te",file="text1.txt",sep=" ", encoding="latin1", ignore.acento=TRUE) Read 194 items [[1]] [1] "10 resultado(s)" [[2]] posicao linha 1 4 tenis, 2 46 tenis 3 81 tenis. 4 95 somente 5 97 tecnologia, 6 127 tenis. 7 134 tenho 8 156 tenho 9 173 tenis 10 180 somente ##Busca de termo com separado “.” e ignorando acentos > busca(x="há",file="text1.txt",sep=".", encoding="latin1", exato=TRUE, ignore.acento=TRUE) Read 14 items Read 194 items [[1]] [[1]][[1]] [1] "1 linha(s) contém palavra buscada" [[1]][[2]] posicao linha 1 1 Ha quem considere tenis, uma coisa horrenda e que nao orna com nada a nao ser legging ou roupa de academia [[2]] [[2]][[1]] [1] "1 resultado(s)" [[2]][[2]] termo 1 Ha ##Busca de palavra exata com separador “.” > busca(x="tenho",file="text1.txt",sep=".", encoding="latin1", exato=TRUE) Read 14 items Read 194 items [[1]] [[1]][[1]] [1] "2 linha(s) contém palavra buscada" [[1]][[2]] posicao linha 1 11 E sim, tenho saído cada vez mais de casa com eles e em looks nada esportivos 2 12 Por isso, peguei minha pastinha de imagens que tenho no HD e achei que deveria compartilhar com vocês, como algo de utilidade pública mesmo, afinal, tênis são caros e é judiação deixá-los somente para fazer atividade física (mesmo que isto implique todos os dias hahahah) [[2]] [[2]][[1]] [1] "2 resultado(s)" [[2]][[2]] termo 1 tenho 2 tenho