Je travaille sur un projet qui implique la conversion d'une grande quantité de contenu HTML en texte brut. J'ai un module écrit sur mesure qui fonctionne bien, mais je me demande s'il existe des outils standard pour faire le travail.Meilleur moyen de convertir du HTML en texte brut en utilisant Python
Répondre
Html2Text semble être une bonne option
Voici une bibliothèque Python qui fait l'analyse syntaxique HTML:
BeautifulSoup est une autre option.
Pour éviter que d'autres ne reviennent de Google à SO, voici un Q & A qui explique que Beautiful Soup n'est plus vraiment maintenu: [WebScraping with BeautifulSoup ou LXML.HTML] (http://stackoverflow.com/questions/5493514/webscraping-with-beautifulsoup-or-lxml-html). – sage
Belle soupe semble être maintenue maintenant je pense. – contrebis
- 1. Convertir du HTML en texte brut en utilisant C++
- 2. Convertir l'entrée de texte brut en HTML
- 3. comment convertir du texte HTML en texte brut?
- 4. Ruby: Convertir HTML/Redcloth en texte brut
- 5. Comment puis-je convertir du texte brut en HTML (de préférence en utilisant Perl)?
- 6. Convertir XML en texte brut
- 7. Comment convertir du texte brut en ODF?
- 8. Delphi: le meilleur moyen de convertir rtf en texte
- 9. python convertir microsoft office docs en texte brut sur linux
- 10. Comment convertir reStructuredText en texte brut
- 11. Texte brut en alignement vertical en HTML
- 12. Comment convertir du HTML brut du Web en XML parsable en Python
- 13. conversion html en texte en utilisant le langage python
- 14. Comment empêcher Exchange de convertir automatiquement les e-mails en texte brut en HTML?
- 15. Comment envoyer du XML brut en Python?
- 16. Convertir du wiki en html
- 17. Convertir le flux RTF en flux de texte brut
- 18. Comment obtenir une page Web en texte brut sans html en utilisant javascript?
- 19. convertir en chaîne en utilisant python
- 20. Comment analyser et convertir l'entité AutoCAD MText en texte brut?
- 21. Python: Comment convertir le texte au format markdown en texte
- 22. Comment convertir du XML brut en SOAP XML en C#?
- 23. Convertir du code HTML en XAML
- 24. Comment convertir du HTML en PDF en utilisant PHP?
- 25. Récupère le HTML brut d'un div en utilisant js?
- 26. Texte brut justifié à partir du code HTML
- 27. Meilleur moyen d'afficher des données via JSON en utilisant jQuery
- 28. Convertir du texte en xml
- 29. Extraire le texte brut du texte HTML dans asp.net
- 30. convertir xml en html en utilisant php
celui-ci fonctionne très bien –
Le site n'est plus accessible depuis Aaron, l'auteur n'est plus. –
mais le code peut être trouvé sur https://github.com/aaronsw/html2text –