2009-09-25 12 views
0

Parseur HTML ... Mon projet récent a besoin d'un Web Spider .. il obtient automatiquement le contenu Web qu'il obtient les liens récursivement .... Mais, il faut connaître son contenu exactement. comme tag. il fonctionne sous linux et windows..vous connaissez certains opensource sur ce besoin .. thanx ou sur une suggestion.HTML parser ... Mon projet récent a besoin d'un Web Spider

+0

Dans quelle langue votre projet est-il rédigé? –

Répondre

-1

Je pense que le sujet que vous devez savoir est l'expression régulière.

L'expression régulière est disponible sur toutes les plateformes et toutes les langues (Java, PHP, Python, C#, Ruby, Javascript). En utilisant l'expression régulière, vous pouvez facilement exiger son contenu en tant que forme préférée. Le bloc de code ci-dessus, écrit en Java, extrait toutes les balises d'ancrage dans une page et extrait l'URL dans votre main.

Si vous n'avez pas assez de temps pour apprendre l'expression régulière, les références suivantes vous aideront.

http://htmlparser.sourceforge.net/

+1

Vous ne devriez jamais utiliser des expressions régulières pour analyser des langages non-réguliers. Même si cela fonctionne, que se passe-t-il lorsque vos besoins changent? Pourquoi ne pas commencer avec le bon outil pour le travail plutôt que d'essayer de pirater quelque chose ensemble? Les parseurs (X | HT) ML sont disponibles dans presque toutes les langues modernes et sont assez faciles à utiliser. –

+0

regex pour analyser html? wtf? – hasen

3

Here est une question StackOverflow montrant comment utiliser un certain nombre de parseurs XML/HTML dans différentes langues. Si vous nous dites quelle langue vous utilisez, je peux être plus précis, mais votre réponse est peut-être déjà là.

0

Cela dépend quelle langue vous développez pour essayer googler:

analyseur html LanguageName

hpricot est un bon pour Ruby, par exemple.

+0

J'ai juste besoin de cela en C ou C++ –

+0

http://www.lmgtfy.com/?q=html+parser+c%2B%2B –

Questions connexes