Je les instructions suivantes dans R, j'utilise pour modifier les valeurs de variables data$theme
selon le texte à l'intérieur data$paragraph
, qui contient de longues chaînes de caractères:Comment accélérer une fonction R
lines <- grep('banana|apple', file$paragraph) # lines that match search terms
for (i in 1:length(lines)){
data[lines[i], 'theme'] <- 'Fruit'
}
Le problème avec cette commande est qu'elle est extrêmement inefficace avec des jeux de données volumineux. Mon cas réel a plus de 200 mille lignes; il faut plus d'une seconde à mon ordinateur pour faire chaque substitution et je devrai faire plus de 40 mille subs (et je ne peux pas me permettre que cette petite étape de mon script prenne plus de 5 heures à compléter). Je cherche désespérément un moyen d'accélérer cela, je parie qu'il y a une solution simple mais je ne peux pas trouver de meilleur moyen d'y arriver. Aidez-moi!
Avez-vous essayé 'data [lines, 'theme'] <- 'Fruit''? Pour obtenir des réponses plus utiles, fournissez peut-être un échantillon de vos données. – ialm