Que utiliser pour vérifier les liens html dans un grand projet, sous Linux?

Je dispose d'un répertoire contenant> 1000 fichiers .html, et je voudrais les vérifier tous pour les mauvais liens - de préférence en utilisant la console. Tout outil que vous pouvez recommander pour une telle tâche?Que utiliser pour vérifier les liens html dans un grand projet, sous Linux?

Source

2010-03-15 Anonymous

Vous pouvez extraire des liens de fichiers html en utilisant le navigateur de texte Lynx. Les scripts Bash autour de cela ne devraient pas être difficiles.

Source

2010-03-15 10:14:52 mouviciel

Lynx peut le faire, mais il ne le supporte pas vraiment. wget est beaucoup mieux adapté pour le but. – reinierpost

Comment obtenez-vous wget pour afficher une liste de liens dans une page? – Quentin

C'est une idée géniale. Pourquoi n'y ai-je pas pensé plus tôt? –

J'utilise checklink (un projet W3C)

Source

2010-03-15 10:26:45 Quentin

Tant que vous prenez soin de définir l'agent utilisateur et d'accepter les en-têtes (pour éviter les faux codes d'erreur provenant des détecteurs de bot), cela devrait fonctionner. –

Cela semblerait correct, mais il n'est certainement pas destiné à de tels projets de grande taille - il n'a aucun moyen de lister simplement les liens brisés, et la sortie pour mon projet est * vraiment * grande. –

Essayez les outils de ligne de commande webgrep ou, si vous êtes à l'aise avec Perl, le module HTML::TagReader par le même auteur.

Source

2010-03-15 15:55:09

vous pouvez utiliser wget, par exemple

wget -r --spider -o output.log http://somedomain.com

au bas du fichier output.log, il indiquera si wget a trouvé des liens brisés. vous pouvez analyser cela en utilisant awk/grep

Source

2010-03-15 16:04:02 ghostdog74

Une autre ligne de commande ** wget ** pour vérifier les liens brisés peut être trouvée dans [cette réponse] (http://stackoverflow.com/a/15029100/1497596). Notez également qu'un commentaire que j'ai laissé sur cette réponse fournit un lien vers ** wget pour Windows **. – DavidRR

Que utiliser pour vérifier les liens html dans un grand projet, sous Linux?

Répondre

Questions connexes