2017-09-23 1 views
0

Je veux entrer le document html dans mon python.Comment entrer html en python

Je reçois cette erreur:

UnicodeDecodeError: 'cp950' codec can't decode byte 0xbb in position
362: illegal multibyte sequence

lorsque vous utilisez ce code:

from bs4 import BeautifulSoup 

soup = BeautifulSoup(open(xxx.html)) 
print(soup) 

Qu'est-ce que je fais mal?

+0

double possible de [UnicodeDecodeError: codec 'utf8' peut 't decode byte 0x9c] (https://stackoverflow.com/questions/12468179/unicodedecodeerror-utf8-codec-cant-decode-byte-0x9c) –

Répondre

0

Vous êtes confronté à un problème d'encodage/décodage.
essayez ceci:

soup = BeautifulSoup(open('xxx.html', encoding='your xxx.html file encoding')) 

vous pouvez trouver votre encodage xxx.html 'en effectuant une recherche charset dans le fichier.
alors, vous obtiendrez quelque chose comme charset=utf-8 ou autre charset=xxx
derrière '=', 'utf8' ou 'xxx' est votre xxx.html encodage