2013-07-13 2 views
0

J'ai récemment travaillé sur de gros fichiers texte. Je les ai transformés en format CSV, avec | en tant que quotechar, mais j'ai trouvé qu'il y a parfois des phrases entières qui sont répétées dans le fichier texte - pas nécessairement l'une après l'autre. Les phrases peuvent être de longueur variable. Mon but est de supprimer les phrases en double du fichier CSV. Pour clarifier, il ressemble à quelque chose comme:expressions régulières pour capturer des phrases répétées

|something irrelevant|,|sentence1| 
|something irrelevant|,|sentence2| 
|something irrelevant|,|sentence3| 
|something irrelevant|,|sentence4| 
... 
|something irrelevant|,|sentence100,000| 

où certaines des secondes colonnes sont des répétitions. J'ai une certaine expérience avec regex, mais je n'ai pas vu quelque chose que je pourrais utiliser pour cela. Les expressions régulières sont-elles la bonne façon d'aborder cela, ou existe-t-il une meilleure alternative? Tout conseil serait très apprécié.

+2

Traitez-vous cela avec un langage de programmation? Laquelle? Dans un éditeur de texte? Laquelle? Dans un autre environnement? Laquelle? –

+0

Merci pour la réponse! J'utilise python + sublime text 2, en travaillant avec scikit. Je viens de trouver un article qui suggère d'importer le fichier CSV dans Excel et de l'utiliser pour supprimer les doublons. Je vais essayer ça ensuite. –

Répondre

0

Ok. J'ai retiré des phrases en double de mon fichier texte comme suit:

  1. Transformée au format CSV
  2. importé vers Excel
  3. Utilisez la fonction « Supprimer les doublons » dans Excel de la colonne qui contient maintenant les phrases
  4. Exporter en fichier CSV
  5. convertir en texte

Ceci est probablement pas la façon la plus efficace de faire les choses, mais il WOR ks et c'est très facile à suivre. J'avais perdu beaucoup de temps à écrire des regex complexes et à jouer en python avant, alors j'espère que cela pourrait sauver du temps à quelqu'un.

Questions connexes