2012-05-15 2 views
0

Ok, donc j'utilise HTML Tidy pour convertir des pages HTML en XHTML compatibles avec l'analyse syntaxique. Le problème est la page de test que j'ai sauvé dans firefox avait son html apparemment quelque peu pré-nettoyé par firefox pendant l'enregistrement, appelez ce fichier F. Html fonctionne bien sur le fichier F, mais échoue sur les données brutes écrites dans un fichier via .NET (fichier N). Html Tidy se plaint que les étiquettes de formulaire sont mélangées avec des étiquettes de table. Le code HTML n'est pas le mien, donc je ne peux pas simplement corriger la source. Comment nettoyer le fichier N assez pour qu'il puisse être exécuté par Html bien rangé? Existe-t-il un moyen standard de se connecter à Firefox (complètement programmé sans avoir besoin d'utiliser la souris ou le clavier) ou un autre outil qui va appliquer des corrections supplémentaires au html?Correction de html malformé qui ne corrige pas html

Répondre

1

J'avais utilisé HTML Tidy pendant un certain temps, mais j'ai ensuite constaté que j'obtenais de meilleurs résultats de TagSoup.

Il peut être utilisé comme analyseur JAXP, en convertissant à la volée du HTML non-formé. Je laisse généralement analyser l'entrée pour les transformations XQuery Saxon.

Mais il peut également être utilisé comme utilitaire autonome, en tant que fichier exécutable.

0

J'ai fini par utiliser SendKeys en C# et en important les fonctions de user32.dll pour positionner Firefox comme fenêtre active après l'avoir lancé sur le site web que je voulais (fichier: /// myfilepathhere /).

SendKeys semblait avoir besoin d'exécuter un programme fenêtré, j'ai donc ajouté un autre exécutable qui effectue des actions dans sa méthode form_load(). En utilisant alt + f, six fois, entrez, attendez un peu, tapez le nom de fichier du chemin d'accès complet, entrez (deux fois), puis en lâchant firefox, j'ai pu automatiser la capacité de Firefox à nettoyer du HTML.

Questions connexes