Parseur HTML ... Mon projet récent a besoin d'un Web Spider .. il obtient automatiquement le contenu Web qu'il obtient les liens récursivement .... Mais, il faut connaître son contenu exactement. comme tag. il fonctionne sous linux et windows..vous connaissez certains opensource sur ce besoin .. thanx ou sur une suggestion.HTML parser ... Mon projet récent a besoin d'un Web Spider
Répondre
Je pense que le sujet que vous devez savoir est l'expression régulière.
L'expression régulière est disponible sur toutes les plateformes et toutes les langues (Java, PHP, Python, C#, Ruby, Javascript). En utilisant l'expression régulière, vous pouvez facilement exiger son contenu en tant que forme préférée. Le bloc de code ci-dessus, écrit en Java, extrait toutes les balises d'ancrage dans une page et extrait l'URL dans votre main.
Si vous n'avez pas assez de temps pour apprendre l'expression régulière, les références suivantes vous aideront.
Vous ne devriez jamais utiliser des expressions régulières pour analyser des langages non-réguliers. Même si cela fonctionne, que se passe-t-il lorsque vos besoins changent? Pourquoi ne pas commencer avec le bon outil pour le travail plutôt que d'essayer de pirater quelque chose ensemble? Les parseurs (X | HT) ML sont disponibles dans presque toutes les langues modernes et sont assez faciles à utiliser. –
regex pour analyser html? wtf? – hasen
Here est une question StackOverflow montrant comment utiliser un certain nombre de parseurs XML/HTML dans différentes langues. Si vous nous dites quelle langue vous utilisez, je peux être plus précis, mais votre réponse est peut-être déjà là.
Cela dépend quelle langue vous développez pour essayer googler:
analyseur html LanguageName
hpricot est un bon pour Ruby, par exemple.
J'ai juste besoin de cela en C ou C++ –
http://www.lmgtfy.com/?q=html+parser+c%2B%2B –
- 1. .Net WikiText à HTML Parser
- 2. Où mon utilisateur a-t-il installé mon projet de configuration Web?
- 3. Traitement d'erreur Simple HTML DOM Parser
- 4. Bon langage pour Spider et Indexer
- 5. Spider Solitaire code
- 6. Besoin d'aide pour attacher gdb à mon projet
- 7. J'ai besoin d'aide ........... projet d'exemple
- 8. Newb a besoin d'apprendre comment interroger le service web .asmx
- 9. Puis-je exclure facilement des fichiers de mon projet de déploiement Web, exclus de mon projet d'application Web?
- 10. De quoi ai-je besoin pour reconstruire mon serveur Web?
- 11. Pourquoi le Web a-t-il besoin de HTTP?
- 12. Parser HTML léger pour traduire au format texte?
- 13. Projet de site Web (ASP.NET) - quel assemblage compilera mon code?
- 14. HTML Parser: erreur atteint la limite de redirection
- 15. Javascript XML Parser
- 16. Parser CSS dans ColdFusion ou Java?
- 17. C# HTTP Demande Parser
- 18. A besoin d'un fichier .sql
- 19. Microsoft XML Parser 3.0
- 20. Parser erreur Problème
- 21. Yaml Parser étouffement
- 22. Besoin d'aide avec cuepoints (projet Adobe Director)!
- 23. comment utiliser dom php parser
- 24. Besoin d'aide pour analyser HTML en C#
- 25. erreur SVG dans mon J2ME projet NetBeans6.5
- 26. J'ai besoin du disque le plus récent dans une jointure (PostgresSQL)
- 27. Comment puis-je obtenir des liens externes comme l'agilité HTML pour travailler dans mon projet C#?
- 28. Comment inclure JavaHelp avec mon projet Eclipse?
- 29. Comment déployer mon projet asp.net dans IIS?
- 30. Quel Wiki Parser?
Dans quelle langue votre projet est-il rédigé? –