2011-02-25 5 views
1

J'ai besoin d'analyser les emails HTML qui seront similaires mais pas exactement les mêmes. Je vais chercher des choses comme les dates, les montants, les fournisseurs, etc., mais en fonction de qui vient l'email, le balisage sera différent.Python html analyse

Comment est-ce que je pourrais analyser ces choses communes de beaucoup de différent balisage de HTML en python?

Merci pour vos suggestions.

+3

Juste * n'utilisez pas * les expressions régulières :) –

Répondre

7

Vous devez absolument prendre en compte la bibliothèque Beautiful Soup. BeautifulSoup ou lxml sont des parseurs HTML décents.

+0

On dirait un bon moyen d'analyser le code HTML. Est-ce que BeatifulSoup nettoiera/corrigera le format html? – Sam

+0

@ utilisateur634529. La réponse est oui. – bioffe

2

Vous pouvez utiliser Beautiful Soup pour analyser HTML en Python.

+0

@downvoter: Essayez-vous d'obtenir un badge pour downvoting tout ou quelque chose? Le lien n'est pas mort et vous n'avez pas laissé de commentaire. Je suppose que la même personne a déprimé toutes les réponses ici. – nmichaels

2

BeautifulSoup est un peu plus pratique mais a quelques bricoles.