J'essaie de faire un peu d'analyse HTML. Je traite des données très dynamiques, et mes sources varient considérablement. Si pour être plus précis, je suis en train d'analyser les informations produit, y compris nom, prix et description des pages que je ne connais pas à l'avance.parse html basé sur la distance entre deux éléments
Tout au long de ces pages, la seule information de base reste la même est le titre de la page le nom de l'article que j'interroge (ils se correspondent tous les deux) et le prix. La seule vraie logique qui reste la même sur différents sites est la proximité entre les différents ensembles d'informations. Ainsi, une étiquette de prix sera proche du nom du produit et proche de sa description.
Je suis à la recherche d'un analyseur html qui me donnera la possibilité d'affiner mon analyse en fonction de la distance en pixels entre les différentes balises html.
Connaissez-vous une telle bibliothèque? Existe-t-il un autre moyen d'aborder ce problème?
EDIT:
La langue, l'os et la résolution ne Metter. Quels outils connaissez-vous qui pourraient aider à résoudre ce problème? Je pourrais décider de changer mon sous-système d'exploitation et ma langue si je trouve une bibliothèque assez bonne.
Donc, vous ne voulez pas analyser HTML, vous voulez analyser une "page web rendue", n'est-ce pas? Ma question est alors: quel système d'exploitation, quel navigateur, quel affichage et quelle résolution? –
Combien de sources avez-vous? Est-il faisable de définir manuellement les noms de classe/id des éléments qui contiennent l'information que vous voulez? –
Bonne question, Supposons que l'utilisateur entre la résolution en tant que paramètre. Et en ce qui concerne le système d'exploitation, windows \ mac, ne me correspond pas vraiment – vondip