L'objectif principal étant d'extraire le titre, les balises META et les liens. J'ai essayé le HTMLLoader mais j'obtiens toutes sortes d'erreurs, principalement des exceptions javascript uncaught.parse html dans l'air d'adobe
J'ai également essayé de charger le contenu html directement (en utilisant URLLoader) et de pousser le texte dans HTMLLoader (en utilisant loadString (...)) mais j'ai eu la même erreur. Le dernier recours consistait à essayer de charger le texte dans xml, puis à utiliser des requêtes E4X ou xpath, sans aucune chance car le html n'est pas bien formé.
Mes questions sont les suivantes:
- Y at-il simple et fiable (air/script d'action) composant DOM là (je ne ai pas besoin pour afficher la page et le mode sans tête ferai)?
- Existe-t-il une bibliothèque pour convertir (corrompre) html en xml bien formé ainsi je peux employer xpath/E4X
- D'autres suggestions sur comment faire ceci?
thx