2010-01-31 4 views
2

Je travaille sur un grattoir Web qui regroupera les données de divers sites Web. J'ai commencé à utiliser les fonctions DOM intégrées de PHP, mais après avoir rencontré quelques problèmes (en particulier en ce qui concerne le balisage malformé et l'encodage de caractères), j'ai choisi d'abandonner PHP. Je pensais au Javascript côté serveur mais je suis ouvert à d'autres suggestions. Si je vais avec Javascript, quel interprète devrais-je utiliser?Meilleur outil pour la manipulation DOM?

Répondre

1

Il existe un excellent module BeautifulSoup pour Python qui peut gérer le balisage cassé dans la plupart des cas. Il permet également d'utiliser des hooks pour le prétraitement de HTML si la page est si mal formée que son heuristique intégrée ne fonctionne pas. J'ai utilisé BeautifulSoup pour écrire des dizaines de parseurs.

Il existe également un module html5lib plus rapide et capable d'analyser le code HTML non valide.

Les deux modules ont des ports Ruby.

Questions connexes