J'ai une chaîne appelée 'str', que j'ai obtenue en chargeant un fichier RDS.Problème d'encodage de texte avec le paquetage ngram
Cette chaîne contient des accents français qui s'affichent très bien dans la console R studio. Toutefois, lorsque vous utilisez le package ngram sur cette chaîne, les caractères accentués ne s'affichent pas correctement.
Si je définis directement une chaîne accentuée dans R cela fonctionne très bien (voir 'str2' dans le code ci-dessous).
Comment puis-je résoudre cela, par exemple, en forçant un nouveau codage sur ma chaîne d'origine.
str # console displays "crédit hypothécaire en juillet"
ng <- ngram(str, n = 2,sep= " ")
get.phrasetable(ng)
# ngrams freq prop
# 1 hypothécaire en 1 0.3333333
# 2 crédit hypothécaire 1 0.3333333
# 3 en juillet 1 0.3333333
str2 <- "crédit hypothécaire en juillet"
ng2 <- ngram(str2, n = 2,sep= " ")
get.phrasetable(ng2)
# ngrams freq prop
# 1 hypothécaire en 1 0.3333333
# 2 crédit hypothécaire 1 0.3333333
# 3 en juillet 1 0.3333333
EDIT:
Suggested link (handling special characters e.g. accents in R) n'a pas fourni une solution à mon problème dans la réponse validée, il est donc pas une question en double, mais il a fourni quelques indices, voir réponse ci-dessous
Premières pensées, n'utilisez pas str car c'est une fonction interne dans R. Voir '? Str' pour ce que je veux dire. –
Copie possible de [manipuler des caractères spéciaux, par ex. Accents dans R] (http://stackoverflow.com/questions/9511281/handling-special-characters-eg-accents-in-r) –
@ErikSchutte il est utilisé dans tous les exemples du paquet ngram donc je suis resté cohérent: –