J'écris une application spéciale de type robot qui doit récupérer le contenu principal de diverses pages. Juste pour clarifier: Je dois le vrai « viande » de la page (à condition qu'il y en a un, naturellement)Comment puis-je résoudre le contenu d'une page Web?
J'ai essayé différentes approches:
- De nombreuses pages ont des flux RSS, donc je peux lire le flux et obtenez cette page spécifique.
- De nombreuses pages utilisent « contenu » meta tags
- Dans beaucoup de cas, l'objet présenté au milieu de l'écran est le principal « contenu » de la page
Cependant, ces méthodes ne Je travaille toujours, et j'ai remarqué que Facebook fait un très bon travail en faisant cela (quand vous voulez attacher un lien, ils vous montrent le contenu qu'ils ont trouvé sur la page de liens).
Alors, avez-vous un conseil pour une approche que j'ai regardée?
Merci!
Pourquoi supposez-vous qu'il y a du «contenu principal»? –