pas tous les sites Web expose leurs données bien, avec les flux XML, API, etc.information de sites
Comment pourrais-je aller à l'extraction d'informations à partir d'un site Web? Par exemple:
...
<div>
<div>
<span id="important-data">information here</span>
</div>
</div>
...
Je viens d'un arrière-plan de programmation et de codage Java avec Apache XMLBeans. Y a-t-il quelque chose de similaire à l'analyse syntaxique HTML, quand je connais la structure et que les données se trouvent entre une balise connue?
Merci
Soyez prudent lorsque vous faites ce genre de chose, surtout si vous avez l'intention de frapper des charges de pages sur le même site et les grattant toutes les données. Cela peut avoir un effet négatif sur la performance de ces sites et n'est pas très amical. – xan
Je suis entièrement d'accord, je ne suis pas intéressé par le grattage, mais il y a des moments où vous devez accéder aux données sur les sites, Remarque, Java n'est pas un must have, juste une note –