J'ai mis en place une liste de pages que nous devons mettre à jour avec du nouveau contenu (nous changeons de formats de média). Dans le processus, je catalogue des pages qui ont correctement le nouveau contenu.Python Regex "l'objet n'a aucun attribut"
est ici l'idée générale de ce que je fais:
- Itérer à travers une structure de fichier et obtenir une liste des fichiers
- Pour chaque fichier lu dans une mémoire tampon et, en utilisant la recherche regex, correspondre à une balise spécifique
- Si adapté, le test 2 correspond plus regex
- écrire les résultats obtenus (un ou l'autre) dans une base de données
Tout fonctionne bien jusqu'à la 3e match de modèle regex, où je reçois le texte suivant:
'NoneType' object has no attribute 'group'
# only interested in embeded content
pattern = "(<embed .*?</embed>)"
# matches content pointing to our old root
pattern2 = 'data="(http://.*?/media/.*?")'
# matches content pointing to our new root
pattern3 = 'data="(http://.*?/content/.*?")'
matches = re.findall(pattern, filebuffer)
for match in matches:
if len(match) > 0:
urla = re.search(pattern2, match)
if urla.group(1) is not None:
print filename, urla.group(1)
urlb = re.search(pattern3, match)
if urlb.group(1) is not None:
print filename, urlb.group(1)
merci.
ah. Je vous remercie. J'utilise des onglets dans le code, qui ont été reformatés/réinterprétés par le moteur de formatage pour ce site. "url n'est pas fixe" – ives