Je viens de commencer à explorer Jsoup et j'ai rencontré le problème suivant: quand j'essaie d'extraire des liens de https://en.wikipedia.org/wiki/Knowledge
qui n'appartiennent qu'à la version anglaise de Wikipedia fonctionne correctement.jsoup - comment obtenir des liens à partir d'un texte d'un article dans Wikipedia
Document document = Jsoup.connect("https://en.wikipedia.org/wiki/Knowledge").timeout(6000).get();
Elements linksOnPage = document.select("a[href^=\"/wiki/\"]");
for (Element link : linksOnPage) {
System.out.println("link : " + link.attr("abs:href"));
}
}
Cependant, je suis aussi obtenir les liens qui ne font pas partie du texte de l'article en cours tels que:
link : https://en.wikipedia.org/wiki/Main_Page
link : https://en.wikipedia.org/wiki/Portal:Contents
link : https://en.wikipedia.org/wiki/Portal:Featured_content
link : https://en.wikipedia.org/wiki/Portal:Current_events
link : https://en.wikipedia.org/wiki/Special:Random
link : https://en.wikipedia.org/wiki/Help:Contents
link : https://en.wikipedia.org/wiki/Wikipedia:About
link : https://en.wikipedia.org/wiki/Wikipedia:Community_portal
Quelle est la bonne façon d'obtenir que les liens de la leader du texte à d'autres articles de Wikipedia avec Jsoup?
https://jsoup.org/cookbook/extracting-data/selector-syntax – matoni
@matoni merci.J'ai trouvé que les liens dont je n'ai pas besoin sont situés dans le 'div id =" mw-panel "'. J'ai donc édité le sélecteur pour les liens selon le livre de cuisine de jsoup comme ceci: 'Elements linksOnPage = document.select (" un [href^= \ "/ wiki/\"], div: not (.mw-panel) ")." Mais je reçois toujours les liens inutiles du panneau latéral de Wikipédia. – samba