Avec Java, le code source d'une page Web est stocké dans une chaîne. Je veux extraire toutes les URL dans le code source et les sortir. Je suis horrible avec regex et autres et je n'ai aucune idée de la façon d'aborder cela. Toute aide serait grandement appréciée.Recherche de liens sur une page Web avec Java
2
A
Répondre
6
Don't use regex. Utilisez un parser comme JSoup.
String html = "your html string";
Document document = Jsoup.parse(html); // Can also take an URL.
for (Element element : document.getElementsByTag("a")) {
System.out.println(element.attr("href"));
}
4
Vous pouvez utiliser HtmlUnit, puis d'extraire les liens qu'il est aussi simple que:
WebClient wc = new WebClient();
URL url = new URL("http://www.oogly.co.uk/");
HtmlPage page = (HtmlPage) wc.getPage(url);
PrintWriter printWriter = new PrintWriter(new FileWriter(FILE_NAME));
List anchors = page.getAnchors();
Questions connexes
- 1. Recherche dans la recherche Web localisée de Google avec Java
- 2. Recherche de liens Web dans un NSString
- 3. Comment obtenir des liens sur une page Web en utilisant mécaniser et ouvrir ces liens
- 4. Comment google remplit-il les descriptions de liens sur une page de recherche?
- 5. Java Web App GUI de recherche universelle
- 6. Comment puis-je intégrer une recherche de lieu sur ma page Web avec google maps?
- 7. Web crawler liens/page logique en PHP
- 8. Bibtex sur une page web?
- 9. vérification des liens cassés sur une page en utilisant le sélénium et en parallèle java
- 10. Page Web mauvaise recherche après le téléchargement sur le serveur
- 11. API de recherche Web pour Java
- 12. Bibliothèque de rapports Java à inclure dans une page Web
- 13. Liens vers une autre page
- 14. Javascript Bookmarklet - Ouverture de plusieurs liens sur une page
- 15. Jquery: Extraire les hrefs de plusieurs liens sur une page
- 16. Trouver des liens vers une page
- 17. Enveloppement de mots sur une page Web
- 18. problèmes de WordWrap sur une page Web
- 19. Récupération de pages Web avec des liens javascript à partir de Java
- 20. Recherche de l'origine de la requête HTTP sur une page
- 21. écrire une page Web avec des liens vers des fichiers dans un répertoire différent
- 22. Conversion de codage de chaîne Java dans une page Web
- 23. Comment l'outil de recherche de navigateur fonctionne-t-il sur une page Web?
- 24. Chargement de la page Web avec connexion en java
- 25. comment centrer un pied de page sur une page Web
- 26. Lecture de flux audio sur une page Web
- 27. Mettre en cache une page Web sur l'iPhone avec UIWebView
- 28. Téléchargement d'une page Web. OK avec wget, échoue avec java
- 29. Recherche inversée de liens Spotify
- 30. jQuery - ouvrir tous les liens sur une page
protip: ne pas analyser html avec regex. – caskey