2010-05-21 5 views
3

Je suis en train d'analyser le fichier html à l'aide du pack d'agilité html pour extraire les données de table du fichier html. Mais il y a des fichiers html où il n'y a pas de balises de fin qui est facultatif ou il n'y a pas de balise de début qui est aussi optionnelle. Donc html agility pack n'analyse pas correctement cette page html.Si j'ouvre le contenu de ce fichier html dans le bloc-notes ++ puis avec l'option TestFX-->TestFX HTML Tidy-->TiDy clean document et rendre le contenu bien rangé comme ceci. Et maintenant ce fichier Si j'analyse avec le pack d'agilité html alors il l'analyse correctement. Rendre la page html propre avec notepad ++ est la meilleure option.Puis-je utiliser notepad ++ exe dans mon application?

Donc, je ne sais pas, mais l'utilisateur ne peut pas faire cela comme d'abord il/elle rend la page bien rangée avec le bloc-notes ++ et ensuite aller de l'avant. Alors que dois-je faire?

EDIT J'ai utilisé paquet html bien rangé, mais dans certains cas, il est le fichier qui est rangea avec qui n'est pas, mais si j'analysable fais cette page dans bien rangé notepad ++ il est analysé.

Répondre

4

Je pense que Notepad ++ utilise la bibliothèque HTMLTidy, et vous aussi. La page principale est here.

Ou vous pouvez peut-être utiliser un service comme HrmlTidy online

Edit: vous semblez vouloir utiliser notepad ++ (au-dessus de HTMLTidy). NP ++ a un ensemble limité de command options donc le chargement du fichier ne sera pas le problème. Mais je n'ai pas trouvé de référence d'une interface pour faire le reste de ce dont vous avez besoin: Ranger le HTML et enregistrer les résultats.

+0

Je l'ai utilisé mais ça ne marche pas toujours. – Harikrishna

+0

Comment puis-je faire cela, n'importe quelle référence? – Harikrishna

2

HTML Tidy est indépendant de Notepad ++ et vous pouvez utiliser ce composant open source directement dans votre projet .NET (ou dans un autre langage).

Plus de détails sur l'utilisation de ce .Net spécifiquement se trouvent here

0

HTML Tidy est également disponible séparément et est simplement utilisé en tant que plugin dans Notepad ++. Vous voudrez peut-être l'utiliser directement dans votre application. Jetez un oeil à http://tidy.sourceforge.net/. Des implémentations pour plusieurs langues sont disponibles.

Questions connexes