2010-02-24 6 views
6

Je cherchais un outil de ligne de commande qui transformerait le code html en le texte qui apparaîtrait sur le site ... donc ce serait l'équivalent d'un navigateur web sélectionnant tout et de le coller ensuite dans un éditeur de texte ...Existe-t-il un moyen simple de supprimer un site Web de texte à partir de la ligne de commande?

Quelqu'un sait quelque chose dans Ubuntu qui ferait cela? J'essaie d'écrire un script pour analyser certaines pages Web, mais je préférerais ne pas avoir à traiter le HTML et je préférerais juste analyser le texte qui apparaît sur le site Web.

Merci,

Dan

Répondre

12
lynx -dump http://example.com/ 
7

si vous avez déjà le fichier html:

lynx -dump file.html > file.txt 

autrement utiliser @ Ignacio

3

je pense que vous avez besoin de lynx:

lynx -dump http://stackoverflow.com > file 
Questions connexes