text.similarity package:unknown R Documentation Cálculo de similaridade entre dois textos Description: A função text.similarity calcula o índice de similaridade entre dois textos desenvolvido por Sigelman e Buell (2004). Usage: text.similarity(text.a, text.b, language = "portuguese") Arguments: text.a: é um vetor de tipo character com um texto. text.b: é um vetor de tipo character com outro texto. language: indica o idioma dos textos a serem comparados. Temos 3 opções: 'portuguese' para textos em língua portuguesa; 'english' para textos em língua inglesa; e 'spanish' para textos em lingua espanhola. Details: Value: A função retorna uma lista de dois elementos: similar: contém o valor do índice de similaridade. freq: é um dataframe onde a coluna 'termos' possui os termos utilizados no cálculo do índice; 'n.termos.a' a frequência de cada termo no primeiro vetor; 'n.termos.b' a frequência de cada termo no segundo vetor; 'pa' a porcentagem de cada termo no primeiro vetor; e 'pb' a porcentagem de cada termo no segundo vetor. Warning: Note: Author(s): Maurício Izumi (mauricio.izumi@usp.br) References: Sigelman, L. and Buell, E. H. (2004). Avoidance or engagement? issue convergence in us presidential campaigns, 1960–2000. American Journal of Political Science, 48(4):650–661. See Also: Examples: ## Exemplo com textos em português (trechos de discursos do Lula) texto.a <- c("Meus companheiros e minhas companheiras, Excelentíssimos senhores chefes de Estado presentes nesta solenidade, Trabalhadores e trabalhadoras do meu Brasil, Meu querido companheiro José Alencar, meu vice-presidente da República, Minha companheira querida, Dona Mariza, esposa do José Alencar, Minha querida esposa Marisa que, juntos, já partilhamos muitas derrotas e, por isso, hoje, estamos realizando um sonho que não é só meu, mas um sonho do povo deste país, que queria mudança.") texto.b <- c("Sou profundamente grato à compreensão da dona Marisa Letícia que, nesses quatro anos, esteve junto comigo, nos bons e nos maus momentos. E, certamente, José Alencar e eu somos gratos também à dona Mariza, a esposa do José Alencar, porque certamente nos momentos difíceis ela era o ombro, o consolo e a consciência política para nos afirmar: Continuem lutando...") similar.lula <- text.similarity(texto.a, texto.b, language = "portuguese") similar.lula ## Exemplo com textos em inglês (trechos de discurso do Obama) texto.a <- c("I said then and believe now that Saddam Hussein was a ruthless dictator who craved weapons of mass destruction but posed no imminent threat to the United States") texto.b <- c("I said that Saddam Hussein was a ruthless man, but that he posed no imminent and direct threat to the United States. I said that a war in Iraq would take our focus away from our efforts to defeat al-Qaeda.") similar.obama <- text.similarity(texto.a, texto.b, language = "english") similar.obama ## Exemplo com textos em espanhol (trechos de "El amor en los tiempos del cólera" de Gabriel García Márquez) texto.a <- c("Alcanzó a reconocerla en el tumulto a través de las lágrimas del dolor irrepetible de morirse sin ella, y la miró por última vez para siempre jamás con los ojos más luminosos, más tristes y más agradecidos que ella no le vio nunca en medio siglo de vida en común, y alcanzó a decirle con el último aliento: - Sólo Dios sabe cuánto te quise.") texto.b <- c("Florentino Ariza había pensado llevarle los setenta folios que entonces podía recitar de memoria de tanto leerlos, pero luego se decidió por media esquela sobria y explícita en la que sólo prometió esencial: su fidelidad a toda prueba y su amor para siempre.") similar.ggm <- text.similarity(texto.a, texto.b, language = "spanish") similar.ggm