Je veux extraire tous les liens d'une page. J'utilise HTML:LinkExtor
. Comment puis-je extraire tous les liens pointant vers des pages de contenu HTML uniquement?Comment extraire des liens dans JavaScript qui pointent vers des pages HTML en Perl?
Je ne peux pas non extraire ces types de liens:
javascript:openpopup('http://www.admissions.college.harvard.edu/financial_aid/index.html'),
EDIT: pages HTML - text/html. Je n'indexe pas les images, etc.
Qu'est-ce que c'est "Pages de contenu HTML uniquement"? En d'autres termes: quels types de liens ne voulez-vous pas extraire? – innaM