2009-10-24 9 views
0

Je suis nouveau sur python. Je veux extraire du texte du site Web de CNN.
Je veux utiliser le module python win32com.
EDIT: sur [pourquoi win32com]
En raison de javascript dans le site Web ... J'ai pensé à utiliser win32com; J'ai cherché une autre solution mais sans succès en ce qui concerne mes besoins. En fait, je voulais utiliser mécanisée ou une solution similaire, mais cela n'a pas fonctionné [pour moi].avec win32com de python et l'analyse du problème html

Est-il possible d'utiliser beautifulsoup ou lxml avec win32com?
Toute personne qui sait comment extraire du texte de cnn webiste, aidez-moi! Plus précisément, je veux extraire le texte sur le site de cnn « Liens sponsorisés » « Money »

import win32com.client 
from time import sleep 
from win32com.client import Dispatch 
import urllib,urllib2 
from BeautifulSoup import BeautifulSoup 

ie = Dispatch("InternetExplorer.Application") 
ie.Visible = 1 
ie.Navigate("http://www.cnn.com") 
sleep(15) 
ie.Quit() 

Répondre

1

Êtes-vous en train d'analyser un texte sur le site Web de cnn?

Vous pouvez obtenir la page avec

import urllib 
f = urllib.urlopen('http://www.cnn.com') 
page = f.read() 
f.close() 

Vous pouvez ensuite utiliser BeautifulSoup pour trouver tout ce que vous recherchez à la page. Pourquoi win32com, dispatch, etc?

+0

salut, à cause de javascript dans le site web ... je veux utiliser win32com. J'ai été cherché une autre solution mais pas autant de succès avec mes exigences. Si possible, en fait, je veux utiliser mécanisée ou quelque chose de similaire, mais ne pourrait pas réussir – paul

+0

Peut-être que l'info dans ce post sera utile: http://stackoverflow.com/questions/1546089/web-scraping-a-problem-site Sinon, s'il vous plaît poster plus de détails sur ce que vous essayez de faire. Voulez-vous suivre les liens des liens commerciaux sur le côté droit et de l'argent près du sommet? – foosion

+0

Bonjour, effectivement faire grattoir web. et grattage n'est pas un problème avec javascript. après grattoir fait, je vais ajouter une autre fonction et cette fois je vais rencontrer beaucoup de javascript, alors pourquoi j'essaie d'utiliser PAMIE ou IE http://elca.pastebin.com/m52e7d8e0 j'ai été attaché source de script scraper actuelle . en particulier je veux changer 'thepage = urllib.urlopen (theurl) .read()' à la méthode PAMIE. si possible, vous pouvez le vérifier et corriger moi? merci d'avance .. – paul

Questions connexes