J'ai mis au rebut une page Web avec BeautifulSoup. Je obtenu une grande sortie à l'exception des parties de l'apparence de la liste comme celui-ci après avoir reçu le texte:Python - Unicode et double-barre oblique inverse
list = [u'that\\u2019s', u'it\\u2019ll', u'It\\u2019s', u'don\\u2019t', u'That\\u2019s', u'we\\u2019re', u'\\u2013']
Ma question est de savoir comment se débarrasser ou remplacer ces doubles antislashs avec les caractères spéciaux qu'ils sont.
Si j'imprime le premier le premier élément de l'exemple liste la sortie ressemble
print list[0]
that\u2019s
J'ai déjà lu beaucoup d'autres questions/discussions sur ce sujet mais je fini par être encore plus confus, comme Je suis un débutant en considérant unicode/encodage/décodage.
J'espère que quelqu'un pourrait m'aider avec ce problème.
Merci! MG
@mgruber se rappeler d'accepter une réponse si elle vous a aidé – eLRuLL
À moins que la page Web ne contienne littéralement des séquences d'échappement unicode comme celle-ci (* that \ u2019s * au lieu de * that *), beautifulsoup ne retournera pas de chaînes sous cette forme. Il retournera le texte sans rien échapper. Comment obtenez-vous ces chaînes? – roeland
J'ai effectué une regex dans le même temps et il semble que c'était le problème. Avez-vous des explications ad hoc pour cela? – mgruber