Je sais que NLTK l'a. Mais autre chose?Qu'est-ce qu'une bibliothèque Light Python qui peut éliminer les balises HTML? (et seulement le texte)
Répondre
Le module standard python html.parser devrait vous permettre d'analyser le contenu html simple et d'éliminer les étiquettes. il suffit de dériver HTMLParser, puis de surcharger toutes les méthodes _ *() afin qu'elles produisent ou suppriment du contenu, en fonction des balises des éléments environnants.
BeautifulSoup: http://www.crummy.com/software/BeautifulSoup/
Sur la page d'accueil:
Beautiful Soup est un analyseur Python HTML/XML conçu pour les projets de redressement rapide comme écran racler. Trois caractéristiques le rendent puissant:
- Belle soupe ne s'étouffe pas si vous lui donnez un mauvais balisage. Cela donne un arbre d'analyse qui fait à peu près autant de sens que votre document original. C'est généralement assez bon pour collecter les données dont vous avez besoin et s'enfuir. Beautiful Soupe fournit quelques méthodes simples et des idiomes Pythoniens pour naviguer, rechercher et modifier un arbre d'analyse: une boîte à outils pour disséquer un document et extraire ce dont vous avez besoin. Vous n'avez pas besoin de créer un analyseur personnalisé pour chaque application.
- Beautiful Soup convertit automatiquement les documents entrants en documents Unicode et sortants en UTF-8. Vous n'avez pas à penser aux encodages, sauf si le document ne spécifie pas d'encodage et que Beautiful Soup ne peut pas en détecter un seul. Ensuite, il vous suffit de spécifier l'encodage d'origine.
Si votre licence le permet, vous pouvez utiliser html2text (the asciinator) (GPL).
Vous voudrez peut-être un coup d'œil à la bande-o-Gram HTML Conversion Library: utilisation http://pypi.python.org/pypi/stripogram/1.5
exemple de readme.txt:
from stripogram import html2text, html2safehtml
mylumpofdodgyhtml # a lump of dodgy html ;-)
# Only allow <b>, <a>, <i>, <br>, and <p> tags
mylumpofcoolcleancollectedhtml = html2safehtml(mylumpofdodgyhtml,valid_tags=("b", "a", "i", "br", "p"))
# Don't process <img> tags, just strip them out. Use an indent of 4 spaces
# and a page that's 80 characters wide.
mylumpoftext = html2text(mylumpofcoolcleancollectedhtml,ignore_tags=("img",),indent_width=4,page_width=80)
- 1. Éliminer les balises html des valeurs
- 2. balises remove qui javascript revient avec le texte
- 3. Texte HTML raccourci et balises mal formées
- 4. lire seulement le texte de Html en utilisant PHP
- 5. PHP script qui lit le code source HTML externe et répertorie le code entre les balises
- 6. python [lxml] - nettoyage des balises HTML
- 7. Correspondance du texte dans les balises P en HTML
- 8. Supprimer toutes les balises HTML et le formatage (RegEx)
- 9. PHP: Escape Quotes SEULEMENT en dehors des balises HTML (Regex)
- 10. Remplacer les balises html
- 11. Récupérer le texte entre les balises A
- 12. Remplacer les nouvelles lignes avec des balises BR, mais seulement dans les balises PRE
- 13. Comment rechercher et corriger les balises et les attributs html?
- 14. Sélectionnez le texte, à l'exception des balises HTML
- 15. PHP: Filtrer les balises html spécifiques d'un texte donné
- 16. Preg texte de correspondance en php entre les balises html
- 17. PHP Regex - Trouver l'URL et le texte dans les balises d'ancrage html
- 18. PHP limite la chaîne de texte PAS les balises html?
- 19. Jsf contrôle ce format de texte avec les balises html
- 20. balises HTML dans JSON (en Python)
- 21. HTML utilisant Groovy MarkupBuilder, comment mélanger élégamment les balises et le texte?
- 22. Prévenir ou effacer les balises HTML/CSS
- 23. balises html dans les balises d'option
- 24. Comment compter les balises html et le contenu
- 25. Balises HTML dans le champ de texte mysql
- 26. Blanc liste certaines balises HTML en python?
- 27. remplacer toutes les balises src image en texte HTML
- 28. Python html analyse qui fonctionne réellement
- 29. Comment remplacer les URL de texte et exclure les URL dans les balises HTML?
- 30. bibliothèque pour le rendu de texte qui prend en charge le texte sur le chemin
Beaucoup SO discussions touchent cet analyseur, http: // stackoverflow .com/questions/étiqueté/beautifulsoup – gimel