Je veux nettoyer une page HTML de ses étiquettes, en utilisant Ruby. J'ai le code HTML brut, et je voudrais définir une liste d'étiquettes, par ex. [ « Durée », « li », « div »], et créer un tableau d'expressions régulières que je pouvais courir de manière séquentielle, de sorte que jeRuby liste d'étiquettes à une expression régulière
clean_text = raw.gsub(first_regex,' ').gsub(second_regex,' ')...
avec deux expressions régulières par étiquette (début et fin) . Est-ce que j'ai un moyen de faire cela par programme (c'est-à-dire pré-compiler le tableau regex à partir d'un tableau de tags, puis les exécuter dans un modèle fluide)? EDIT: Je me rends compte que j'ai effectivement posé deux questions à la fois - La première sur la transformation d'une liste de balises en une liste d'expressions régulières, et la seconde sur l'appel d'une liste d'expressions régulières en tant que couramment. Merci d'avoir répondu aux deux questions. Je vais essayer de faire mes prochaines questions à thème unique.
avez-vous pensé à utiliser un analyseur xml/html approprié (par exemple nokogiri http://nokogiri.org/)? –
Eh bien, un analyseur xml/html approprié est une solution plus robuste, mais je veux "juste le texte", prêt à tolérer un résultat un peu bruyant en retour pour ne pas avoir à cartographier la structure exacte du document. –