-
fichier
a.txt
contenant plusieurs millions de lignes (disons, une phrase par ligne) (2,6 Go fichier
- !
b.txt
contenant 830K lignes avec des paires[word1] [word2]
question:
Comment effectuer le remplacement le plus efficace de chaque mot1 par mot2 pour chacun des 830k tuples (w1, w2) dans le fichier texte énorme?
Des méthodes naïves comme sed, perl, python, etc. nécessiteraient des semaines pour le faire. Y a-t-il des moyens (éventuellement basés sur la parallélisation) d'effectuer cette charge de remplacements?
Y a-t-il d'autres considérations, telles que les mots trouvés et remplacés ne se chevauchent pas, ou les changements dans b.txt doivent-ils être exécutés dans l'ordre? –
Le mot naïf est un peu ridicule puisque sed/perl/python a été utilisé avec succès avec de gros fichiers journaux pendant un certain temps. – cgp