Supposons que j'ai un ensemble de fichiers texte .html dans le dossier.Recherche en masse et suppression de parties de fichiers HTML à l'aide de CMD ou de JavaScript
Je dois traiter chaque fichier et supprimer le contenu de balises HTML spécifiques, y compris les balises elles-mêmes. Les fichiers doivent être réécrits après le traitement.
Exemples:
- Supprimer tous les blocs
<script>
- Supprimer tous les blocs
<div class="test-class">
y compris le contenu intérieur
outils Regex comme sed -i -e 's/REGEX//g' *.html
ne sont pas bonnes pour le traitement HTML. Donc, je suis à la recherche d'une solution axée sur l'analyse HTML basée par exemple sur XPATH comme //script
, //div[@class="test-class"]
.
Quelle est la meilleure façon d'y parvenir?
Je suggère utiliser un analyseur XML/HTML (xmlstarlet, xmllint ...). – Cyrus
Si vous [modifiez] votre question pour inclure un exemple avec une entrée d'échantillon concise et testable et une sortie attendue, je pense que vous obtiendrez de l'aide. –