J'ai couru une commande grep
et trouvé plusieurs centaines d'instances d'une chaîne dans un grand répertoire de données. Ce fichier est de 2 Mo et a des chaînes que je voudrais extraire et mettre dans un fichier Excel pour un accès facile plus tard. La partie que j'extrais est un chemin vers un fichier de données sur lequel je dois travailler plus tard.Trouver "chaîne" dans le fichier texte - Ajouter au fichier Excel en utilisant Python
J'ai lu récemment à propos de Python et je pensais pouvoir faire cette extraction automatiquement. Mais je suis un peu perplexe comment commencer. J'ai ce jusqu'à présent:
data = open("C:\python27\text.txt").read()
if "string" in data:
Mais je ne suis pas sûr de ce à utiliser pour sortir du fichier ce que je veux. Quelque chose pour un débutant à mâcher?
EDIT
Voici quelques informations supplémentaires sur ce que je cherchais. J'ai plusieurs centaines de lignes dans un fichier texte. Chaque ligne a un chemin et quelques chaînes comme ceci:
/path/to/file:STRING=SOME_STRING, ANOTHER_STRING
Ce que je voudrais à partir de ces lignes sont les chemins de ces lignes avec un spécifique « STRING = SOME_STRING ». Par exemple, si la ligne ressemble à ceci, je veux que le chemin (/path/to/file
) à extraire dans un autre fichier:
/path/to/file:STRING=SOME_STRING
Désolé, mais je pense que je ne pouvais pas comprendre votre problème correctement: Vous voulez trouver "chaîne" dans votre fichier, et pour que votre code devrait fonctionner. Alors vous savez "chaîne" est à l'intérieur du fichier. Que voulez-vous extraire exactement après que vous le sachiez? – malvim
Je veux extraire un chemin qui se trouve juste avant la chaîne trouvée et l'ajouter à un fichier Excel. Par exemple:/path/to/string/file: "string_I_found" = ... Je veux la partie "/ path/to/string/file" dans un fichier Excel. Il y en a peut-être 300 dans le fichier que j'essaie d'analyser. – nicorellius
Vous pouvez étudier la version de [expressions régulières] de Python (http://docs.python.org/library/re.html) si vous ne les connaissez pas déjà. – GreenMatt