Si c'est une question de programmation, alors je vous suggère d'écrire votre propre expression régulière pour analyser tous les contenus récupérés. Les tags cibles sont IMG et A pour HTML standard. Pour JAVA,
final String openingTags = "(<a [^>]*href=['\"]?|<img[^> ]* src=['\"]?)";
Ceci avec les classes Pattern et Matcher devrait détecter le début des balises. Ajouter une balise LINK si vous voulez également CSS.
Cependant, ce n'est pas aussi simple que vous l'avez pensé. De nombreuses pages Web ne sont pas bien formées. Extraire tous les liens par programme que l'être humain peut "reconnaître" est vraiment difficile si vous avez besoin de prendre en compte toutes les expressions irrégulières.
Bonne chance!
crawlmysite.in - Site n'existe pas –