J'essaye d'analyser RSS chaanal avec simple-rss lib.Suppression d'entités XML d'une chaîne dans Ruby
Malheureusement j'ai eu beaucoup de déchets dans le nœud:
<description><p>
some decryption
</p>
<a href="http://url.com/trac/xxx/wiki/foo?action=diff&amp;version=28">(diff)</a></description>
J'ai besoin de récupérer du texte (« une description ») et éventuellement URL.
Quelle est la meilleure façon de le faire? Regexp (si c'est une réponse, pourriez-vous me donner un exemple, s'il vous plaît?)?
Merci "CGI.unescapeHTML (description)" est exactement ce que je cherchais. Une question supplémentaire, quoi de mieux pour récupérer http://url.com/trac/xxx/wiki/foo?action=diff & version = 28 regexp ou parser DOM? –
Tout ce qui répond à vos besoins. Dépend de la taille du fichier XML. Si c'est trop énorme, je suggère d'utiliser les deux collectivement. Utilisez l'analyseur XML pour affiner le nœud dont vous voulez extraire l'URL, puis utilisez regex. Mais encore une fois, tout ce qui convient à vos besoins. – Chirantan