Il ne s'agit pas vraiment d'une question de programmation, mais plutôt d'une question algorithmique.Trouver le contenu du document de section HTML
Problème: Recherche de la section "contenu" d'une page HTML.
Par "contenu", j'entends le dom qui contient le contenu de la page vu par les humains, sans le bruit, simplement le "contenu réel de la page". Je sais que le problème n'est pas bien défini, mais continuons ... Par exemple dans les sites de blogs, c'est généralement facile, lorsque vous naviguez vers un poste spécifique, vous avez généralement des barres d'outils en haut de la page, peut-être un peu de navigation éléments sur le LHS, puis vous avez le div qui contient le contenu. Essayer de comprendre cela à partir du HTML peut être difficile. Heureusement, cependant, la plupart des blogs ont des flux RSS et dans le flux pour ce poste spécifique, vous trouverez une section description > (ou < contenu: codé >) et c'est exactement ce que vous voulez. Donc, pour affiner la définition de contenu, c'est la chose réelle sur la page qui contient la partie intéressante, supprimant toutes les publicités, éléments de navigation, etc Donc trouver du contenu à partir des blogs est relativement facile, en supposant qu'ils ont RSS. Idem pour les autres sites de support RSS.
Qu'en est-il des sites de nouvelles? Dans de nombreux cas, les sites d'information ont RSS, mais pas toujours. Comment trouver du contenu sur les sites de nouvelles alors? Qu'en est-il des sites plus généraux? De nombreuses pages Web (bien sûr pas toutes) ont une section de contenu et d'autres sections. Pouvez-vous penser à un bon algorithme pour trouver les sections qui sont "intéressantes" v/s le moins intéressant? Peut-être que les sections qui changent de celles qui ne changent pas?
J'espère que j'ai été clair ... Merci!
Pour la majorité des pages sur le web, vous faites bien de trouver toute "partie intéressante" –
Il s'agit d'une question difficile à répondre. S'il était facile d'identifier le «contenu intéressant» du bruit, alors tout le monde utiliserait un filtre de «bruit» comme Adblock est utilisé pour bloquer les publicités.Cela dit, typiquement, ce qu'un utilisateur voit (essentiellement tout le contenu du fichier html dépouillé du balisage et de la logique de script) est susceptible de contenir des "informations" et ceci peut être extrait en utilisant un convertisseur htmlToText. La classe StringBean de www.htmlparser.org peut être utilisée pour cela (Java). – hashable