2010-01-30 5 views
3

J'essaie d'analyser un flux RSS/Podcast en utilisant Beautifulsoup et tout fonctionne bien, sauf que je ne peux pas sembler analyser le champ 'pubDate'.pubDate RSS analyse bizarrerie avec Beautifulsoup/Python

data = urllib2.urlopen("http://www.democracynow.org/podcast.xml") 
dom = BeautifulStoneSoup(data, fromEncoding='utf-8') 
items = dom.findAll('item'); 

for item in items: 
    title = item.find('title').string.strip() 
    pubDate = item.find('pubDate').string.strip() 

Le titre se parsé bien, mais quand il arrive à pubDate, il est dit:

retraçage (appel le plus récent en dernier): Fichier "", ligne 2, en AttributeError: objet 'NoneType' n'a pas d'attribut 'chaîne'

Cependant, lorsque je télécharge une copie du fichier XML et que je renomme 'pubDate' en quelque chose d'autre, puis je l'analyse de nouveau, cela semble fonctionner. PubDate est-il une variable réservée ou quelque chose en Python?

Merci,

g

Répondre

3

Il fonctionne avec item.find('pubdate').string.strip(). Pourquoi n'utilisez-vous pas feedparser?

+1

merci, en minuscules fait l'affaire. Une idée pourquoi? Je vais certainement vérifier feedparser. Semble beaucoup plus facile que beautifulsoup. – givp