2009-04-17 10 views

Répondre

36

Ce module aidera à faire ce que vous décrivez:

http://www.freewisdom.org/projects/python-markdown/Using_as_a_Module

Une fois que vous avez converti le démarquage en HTML, vous pouvez utiliser un analyseur HTML pour dépouiller le texte brut.

Votre code pourrait ressembler à ceci:

from BeautifulSoup import BeautifulSoup 
from markdown import markdown 

html = markdown(some_html_string) 
text = ''.join(BeautifulSoup(html).findAll(text=True)) 
+1

il semble que convertir en HTML .. Je dois convertir en texte brut .. comme stackoverflow, dans la page d'accueil question sommaire, il supprime le formatage – Krish

+0

J'ai mis à jour ma réponse pour obtenir du texte brut –

+0

Merci coonj .. Bon à savoir à propos de BeatifulSoup – Krish

2

Commentés et retiré parce que je pense enfin que je vois le hic ici: Il peut être plus facile de convertir votre texte démarquage en HTML et supprimer HTML du texte . Je ne suis pas au courant de quoi que ce soit pour supprimer efficacement le démarquage du texte, mais il existe de nombreux HTML pour les solutions en texte brut.

Questions connexes