Je voudrais extraire le texte d'un fichier HTML en utilisant Python. Je veux essentiellement la même sortie que je recevrais si je copiais le texte d'un navigateur et le collais dans le bloc-notes.conversion html en texte en utilisant le langage python
Je voudrais quelque chose de plus robuste que d'utiliser des expressions régulières qui peuvent échouer sur du HTML mal formé. J'ai vu beaucoup de gens recommander Beautiful Soup, mais j'ai eu quelques problèmes à l'utiliser. Pour un, il a ramassé du texte indésirable, comme la source JavaScript. En outre, il n'a pas interprété les entités HTML. Par exemple, je m'attendrais '
en source HTML à être converti en apostrophe dans le texte, comme si j'avais collé le contenu du navigateur dans le bloc-notes.
Mise à jour: html2text
semble prometteur. Il gère correctement les entités HTML et ignore JavaScript. Cependant, il ne produit pas exactement le texte brut; il produit une démarque qui devrait ensuite être transformée en texte brut. Il ne contient aucun exemple ou documentation, mais le code semble propre.
Si seulement la vie était si facile ... savez-vous comment le HTML fonctionne? Avez-vous ouvert votre fichier HTML par exemple? Bloc-notes? – katrielalex
question mise à jour s'il vous plaît jeter un oeil ......... –
il n'y a pas d'outil magique qui va tout enlever. toutes les pages Web vont être chargées de choses. mieux vaut tout saisir, puis remplacer les apostrophes et supprimer javascript. – JiminyCricket