Je données à l'aide de déchirage lxml
html grattage utilisant lxml
Ceci est l'élément inspectez du seul poste
<article id="post-4855" class="post-4855 post type-post status-publish format-standard hentry category-uncategorized">
<header class="entry-header">
<h1 class="entry-title"><a href="http://aitplacements.com/uncategorized/cybage/" rel="bookmark">Cybage..</a></h1>
<div class="entry-meta">
<span class="byline"> Posted by <span class="author vcard"><a class="url fn n" href="http://aitplacements.com/author/tpoait/">TPO</a></span></span><span class="posted-on"> on <a href="http://aitplacements.com/uncategorized/cybage/" rel="bookmark"><time class="entry-date published updated" datetime="2017-09-13T11:02:32+00:00">September 13, 2017</time></a></span><span class="comments-link"> with <a href="http://aitplacements.com/uncategorized/cybage/#respond">0 Comment</a></span> </div><!-- .entry-meta -->
</header><!-- .entry-header -->
<div class="entry-content">
<p>cybage placement details shared <a href="http://aitplacements.com/uncategorized/cybage/" class="read-more">READ MORE</a></p>
</div><!-- .entry-content -->
Pour chaque tel poste, je veux en extraire le titre, le contenu de poster, et post-timing.
Par exemple, dans ci-dessus, les détails seront
{title : "Cybage..",
post : "cybage placement details shared"
datetime="2017-09-13T11:02:32+00:00"
}
Jusqu'à maintenant ce que je suis en mesure d'atteindre: le site nécessite une connexion, je suis Successfull à le faire.
Pour l'extraction d'informations:
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64)
Chrome/42.0.2311.90'}
url = 'http://aitplacements.com/news/'
page = requests.get(url,headers=headers)
doc = html.fromstring(page.content)
#print doC# it prints <Element html at 0x7f59c38d2260>
raw_title = doc.xpath('//h1[@class="entry-title"]/a/@href/text()')
print raw_title
La raw_title donne une valeur vide []
?
Qu'est-ce que je fais mal?
Vous devez prendre un coup d'oeil à [belle soupe] (https://www.crummy.com/softw sont/BeautifulSoup/bs4/doc /). C'est génial pour votre besoin. Ou encore «scrapy», si vous avez besoin de quelque chose de plus avancé (par exemple, les araignées). – floatingpurr
Je recevais de la valeur vide, parce que je devais être déconnecté, j'ai corrigé le problème –