J'essaie d'utiliser l'expression régulière suivante pour extraire le nom de domaine d'un texte, mais il ne produit rien, quel est le problème? Je ne sais pas si cela est approprié pour poser cette question "fixer le code", peut-être que je devrais en lire plus. Je veux juste gagner du temps. MerciPython expression régulière pour les noms de domaine
pat_url = re.compile(r'''
(?:https?://)*
(?:[\w]+[\-\w]+[.])*
(?P<domain>[\w\-]*[\w.](com|net)([.](cn|jp|us))*[/]*)
''')
print re.findall(pat_url,"http://www.google.com/abcde")
Je veux que la sortie soit google.com
merci Dav, mais le urlparse.netloc renvoie "www.google.com"? Et je veux extraire des URL dans le texte comme ? – yasein
urlparse.scheme + urlparse.netloc + urlparse.path devrait vous donner le résultat attendu. –
Peut-être que tout le monde le sait, mais urlparse.netloc est membre var, pas une fonction. Exemple: 'p = urlparse.urlparse (url); print p.netloc' affiche 'host.example.com' – MarkHu