J'ai 100 fichiers .txt avec ~ 1 mln lignes chacun.Supprimer des lignes dupliquées à partir de plusieurs fichiers texte
Existe-t-il un moyen d'ouvrir tous les fichiers, supprimer les doublons et enregistrer les lignes en conséquence pour chaque fichier (php/unix etc)?
Par exemple:
contenu du FILE1.TXT
Something here1
Something here2
contenu FILE2.TXT
Something here2
Something here3
Après le retrait:
contenu FILE1.TXT
Something here1
Something here2
contenu FILE2.TXT
Something here 3
J'ai eu deux réponses différentes d'abord, puis je regardais un peu plus à votre question. C'est plus difficile que je ne le pensais. Pour d'autres prétendants, notez que l'OP souhaite supprimer des lignes d'un fichier s'il existe dans un autre fichier. Ceci est différent, il suffit de supprimer toutes les lignes en double dans chaque fichier. – brianmearns
L'ordre des lignes est-il important dans chaque fichier lorsque vous avez terminé? Sinon, la commande 'sort -u' peut être utile, mais elle ne fait pas directement ce que vous cherchez. Ce peut être un point de départ cependant, pour quelqu'un de plus intelligent que moi-même. – brianmearns
Oui, je les ai déjà triés, maintenant je dois également supprimer les doublons des autres fichiers. –