2010-10-13 6 views
0

Je veux utiliser lxml propre pour se débarrasser de tous les fichiers html, mais une expression rationnelle autoLink quelque chose:Nettoyant lxml avec une étiquette personnalisée?

[ABC] -> <a href="bah bah bah">ABC</a> 

quelle est la bonne façon de gérer cela sans XSS et tel?

+1

que voulez-vous dire par « autolink quelque chose »? Je ne comprends pas [ABC] -> ABC –

+0

thx, sry, il s'est dépouillé, devrait être moi maintenant clair – Timmy

Répondre

1

Peut-être que l'utilisation de la fonction markdown avec le code HTML inline serait appropriée? Le module python markdown est assez mature.

Consultez la section "mode sans échec" dans le docs pour plus d'informations sur l'élimination du code HTML intégré.

Selon ce que vous voulez, quelque chose comme py-wikimarkup peut être plus approprié.

L'utilisation d'un regexp personnalisé est probablement pas une bonne idée, parce que

  • que vous aurez à expliquer les règles aux personnes qui pourraient être déjà familiers avec démarquage/WikiText
  • vous devrez fournir un moyen d'échapper du texte, par exemple pour les gens qui veulent vraiment écrire [ABC]
  • vous devrez corriger les bogues, y compris les problèmes de sécurité
Questions connexes