J'ai un script qui analyse une page html pour tous les liens qu'il contient. Je les reçois tous bien, mais j'ai une liste de domaines que je veux comparer. Ainsi, une liste d'échantillons contientAnalyse HTML pour les liens de domaine
list=['www.domain.com', 'sub.domain.com']
Mais je peux avoir une liste de liens qui ressemblent à
http://domain.com
http://sub.domain.com/some/other/page
Je peux dépouiller le http: // très bien, mais dans les deux exemples de liens que je viens posté, ils devraient tous deux correspondre. Le premier que je voudrais faire correspondre à www.domain.com, et le second, je voudrais faire correspondre le sous-domaine dans la liste. À l'heure actuelle, j'utilise url2lib pour analyser le code HTML. Quelles sont mes options dans cette tâche?
Comment décidez-vous si 'domain.com' doit correspondre' contre www.domain. com' ou 'sub.domain.com'? – dhill
À cet effet, je vais avec l'hypothèse s'il n'y a pas de sous-domaine montrant sur le domain.com, de l'associer à www – Nathan