Identification du contenu principal d'une page

Étant donné une page HTML qui est un article lourd de texte, je voudrais identifier et analyser le contenu principal. En utilisant http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html en tant qu'exemple, je veux identifier div # post-4438372351887392855, qui contient le titre et l'articleIdentification du contenu principal d'une page

Je sais que rien ne peut être parfait ou fonctionner 100% du temps, mais y a-t-il une approche qui peut me donner le résultat souhaité dans un nombre raisonnable de circonstances? Ma pensée actuelle est d'itérer à travers chaque div, en retirant le balisage, puis en trouvant le div le plus interne qui contient le plus de texte. À ce stade, je ne fais que commencer, donc je cherche des idées que je peux mettre en place pour une approche conceptuelle. Ou, si quelque chose est là-bas, une bibliothèque open source serait bien.

Merci d'avance pour les idées.

Source

2009-08-03 chipotle_warrior

Certaines personnes chez arc90 ont fait un travail assez impressionnant avec leur readability bookmarklet. Il semble que vous trouviez assez bien le contenu 'principal' - il fonctionne parfaitement sur la page que vous avez listée.
Vous pouvez regarder à travers leur javascript bien commenté (lié à dans le bookmarklet), mais vous pouvez contacter les développeurs pour leurs idées et la permission de les utiliser.

Source

2009-08-03 04:49:12

La liste établie la plus complète des ressources pour l'extraction de contenu primaire sont:

Regardez aussi les commentaires car il y a des conseils supplémentaires.

Source

2011-12-29 18:52:47

Identification du contenu principal d'une page

Répondre

Questions connexes