0

J'ai besoin de traiter pas mal de données html [assez] arbitraires. Les données peuvent heureusement être divisées en douze modèles différents. Mon plan actuel est de construire un filtre pour chacun des modèles qui me permet d'extraire les données requises sans contenu non pertinent. Le problème est que je ne suis pas sûr de l'outil idéal pour le travail.Bibliothèque recommandée pour graver des données html

J'espérais que quelqu'un pourrait recommander une bonne bibliothèque pour travailler avec/extraire des éléments à partir de données html arbitraires. Bon dans ce cas serait un analyseur robuste qui est idéalement FOSS. Dans le passé, j'ai tout fait depuis l'écriture de mon propre analyseur, j'utilise des expressions régulières * et j'ai utilisé diverses bibliothèques d'analyse comme ElementTree et BeautifulSoup de python. Idéalement, vous suggérerez quelque chose ayant utilisé un certain nombre de technologies, pas seulement «la seule bibliothèque que j'utilise».

Je vais le faire sur un hôte Linux et je n'ai pas vraiment de soucis avec la langue que j'utilise.

(*) Oui, tout le monde connaît le dicton "utiliser des expressions régulières pour analyser html est mauvais". Il est inutile de le rappeler.

+0

Je te jure que je vois un de ces chaque semaine .. langue agnostique: http://stackoverflow.com/questions/2861/options-for-html -scraping – Earlz

+0

@Earlz - Encore plus étrange est que c'est le premier résultat lors de la recherche de "html grattage". –

+0

Ouais j'ai lu ça en premier, et quelques autres. Je n'ai pas l'impression que tous ceux qui en ont fait beaucoup ont beaucoup à dire. J'ai travaillé avec Beautiful Soup, quelque chose en perl est susceptible d'être beaucoup plus rapide (comme Mechanize). Quelque chose en C pourrait être encore mieux, mais je ne sais pas. Le problème ici (que j'ai essayé de faire comprendre) est que je veux entendre des gens qui ont l'expérience de faire cela. – Jotham

Répondre

1

QueryPath - www.querypath.org

Vous éléments d'accès via des sélecteurs CSS, comme dans JQuery.

Vous pouvez également l'utiliser comme un moteur de template etc ..

Questions connexes