2016-07-19 4 views
1

Je suis l'analyse d'un fichier texte à partir d'une base de données hydrologique française qui contient des lignes comme celle-ci:Comment convertir le texte accentué dans le texte brut R

Date Q (m3/s) Validité F. exp. Libellé Fréquence exp 

Lorsque R lit ces lignes soit avec read.csv ou readLines, les accents sont échappés avec des codes pour former ceci:

Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence exp 

Ces codes d'échappement empêchent les commandes grepl simples. Ainsi, par exemple:

grepl("Date", "Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence exp") 

le résultat suivant:

[1] FALSE 
Warning message: 
In grepl("Date", "Date Q (m3/s) Validit\xe9 F. exp. Libell\xe9 Fr\xe9quence exp") : 
input string 1 is invalid in this locale 

Quelle est la meilleure façon de traiter avec ces codes d'échappement afin que je puisse appliquer un traitement de texte simple?

Répondre

1

pour cette solution:

namc <- readLines(con <- file('g:/filename.txt', "r", encoding='UTF-8')) close(con) cat(namc)

Rappelez-vous de changer le nom du fichier et le chemin. Vous devriez pouvoir utiliser grepl et gsub pour le nettoyer après cela