Je crée donc une page Web «crawler» qui analyse une page Web, puis recherche un mot ou un ensemble de mots dans la page Web. Voici mon problème, les données que je cherche est contenue dans la page Web analysée (je l'ai couru en utilisant le mot spécifique comme un test) mais il dit que les données qu'il cherche n'a pas été trouvé.Les données de l'analyseur python html ne sont pas trouvées
from html.parser import HTMLParser
from urllib import *
class dataFinder(HTMLParser):
def open_webpage(self):
import urllib.request
request = urllib.request.Request('https://www.summet.com/dmsi/html/readingTheWeb.html')#Insert Webpage
response = urllib.request .urlopen(request)
web_page = response.read()
self.webpage_text = web_page.decode()
return self.webpage_text
def handle_data(self, data):
wordtofind = 'PaperBackSwap.com'
if data == wordtofind:
print('Match found:',data)
else:
print('No matches found')
p = dataFinder()
print(p.open_webpage())
p.handle_data(p.webpage_text)
J'ai exécuter le programme sans la fonction de page Web ouverte en utilisant la méthode d'alimentation et il fonctionne et trouve les données, mais il ne fonctionne plus.
Toute aide dans la résolution de ce problème est apprécié
Quel est exactement ce que vous voulez extraire du site? Liens de tags href? –
J'essaie juste de trouver du texte à partir de la page, que ce soit dans les balises href ou dans les balises p – S0lo