Je cherche des méthodes pour extraire diverses données de divers sites Web. Je sais qu'il existe des programmes que vous pouvez acheter, mais étant donné que j'essaie d'apprendre, je veux le faire moi-même. Quelqu'un a-t-il des suggestions sur une structure générale et, dans l'affirmative, dans quelle langue écrivez-vous. Ma première pensée a été java, mais je suis plus qu'heureux et reconnaissant d'entendre l'opinion de quelqu'un d'autre.Extraction de données?
Répondre
Quel type de données essayez-vous d'extraire des sites Web? Quels sites Web? etc. Un peu plus de détails sur votre idée/projet serait utile
J'ai récemment eu besoin de regarder et d'essayer quelques analyseurs html pour obtenir des données dont j'avais besoin dans un format plus consolidé.
J'ai essayé JTidy (http://jtidy.sourceforge.net/) et regardé dans Web-Harvest (http://web-harvest.sourceforge.net/). JTidy ne ferait pas tout à fait ce que je voulais et Web-Harvest était exagéré.
Je finalement installé sur l'utilisation de Java + HTMLParser (http://htmlparser.sourceforge.net/)
Il a fallu très peu de temps de développement pour obtenir ce que je avais besoin et HTMLParser vous permet de former des « filtres » qui recherchent des choses spécifiques dans les DOM.
Regardez hadoop (grilles) et solr (chenilles et indexeurs). Ils supportent tous deux un traitement lourd et une indexation efficace (pour une recherche efficace) respectivement.
- 1. Extraction de données HTML
- 2. extraction de données de l'URL dans l'iphone
- 3. Python xlrd extraction des données
- 4. extraction de données à partir d'un plist
- 5. Extraction de données à partir d'un objet
- 6. Extraction des données de base spéciales
- 7. extraction de données à partir d'un fichier
- 8. Extraction et analyse de données avec soapUI
- 9. Extraction des données HTML avec Curl/PHP
- 10. extraction de contours
- 11. pdf extraction de texte
- 12. Entity Framework: extraction de données des bases de données de différentes bases de données
- 13. Nettoyage et extraction de données à partir de fichiers texte
- 14. Extraction de données de Wikipedia JSON ou XML avec PHP
- 15. OCR avec réseau de neurones: extraction de données
- 16. Extraction de données (chaînes) d'une chaîne de caractères string
- 17. Extraction de données de balise HTML avec sed
- 18. extraction de données RDL à l'aide de LINQ
- 19. Extraction de données en ligne sans oauth côté client
- 20. Extraction de données d'une autre entité dans CRM 3.0?
- 21. Extraction de données pour les nombres entiers avec ajustement exact
- 22. Application FB: extraction des données utilisateur à partir de l'application
- 23. Extraction de données et impression dans un tableau HTML
- 24. Extraction de données à partir d'une chaîne non formatée
- 25. extraction de données à partir d'une requête SQL
- 26. Extraction des données de Repeater avec EnableViewState = false ... Comment/Alternative?
- 27. Extraction des données de la source avec beaucoup d'espace blanc
- 28. Extraction des données de plusieurs serveurs SQL 2005 SSIS
- 29. l'intégration des données et extraction de listes distinctes en Python
- 30. Extraction des données d'amplitude de PCM linéaire sur l'iPhone
Supposons que j'extraie des prix à partir d'un nombre déterminé de sites Web. Et divers éléments d'information seront saisis par un utilisateur. Et puis interrogé à travers ces sites Web .. Merci pour votre aide – Eric