2017-09-29 3 views
1

Je suis actuellement à la recherche sur le net, en essayant de trouver un moyen de créer un robot d'indexation Java pour App Store. J'ai essayé la bibliothèque Jsoup, mais elle ne prend pas en charge l'exploration de pages Web à défilement infini. Si vous connaissez des approches appropriées d'exploration de pages Web à boucle infinie en utilisant Java, n'hésitez pas à nous en aviser.Le robot d'exploration de l'App Store utilise Java?

Mise à jour

Comment PhantomJS de configuration avec Java?

Merci beaucoup.

+0

L'analyse syntaxique de xml/html ne fonctionne-t-elle pas mieux? –

+0

Og je l'ai eu, défilement infini est rempli sur le défilement, vous devez trouver ces services –

+0

Ouais c'est le peu difficile, tout en utilisant la bibliothèque Jsoup, je pensais que j'ai trouvé la solution, quand j'applique la recherche du mot-clé "calculatrice" pour app store, puis analyser le fichier html, je reçois seulement 49 premières applications. Besoin d'un moyen d'être en mesure de faire défiler la page –

Répondre

0

JSoup est un analyseur HTML, pas un robot d'exploration. Pour explorer les pages à défilement infini, vous pouvez enregistrer les requêtes que le navigateur émet à l'aide de la page défilant et parcourant la page en utilisant les mêmes URL que les graines de n'importe quel autre moteur de balayage. Heritrix est un webcrawler implémenté dans Java que vous pouvez choisir d'utiliser. Des alternatives comme Nutch, Stormcrawler et Sparkler sont des options que vous pourriez également envisager. Une autre option que vous avez est d'utiliser quelque chose comme PhantomJS et le JSON Wire Protocol il implémente pour rendre les pages et exécuter des événements de défilement pour simuler un utilisateur exploitant un navigateur pour obtenir des résultats similaires. Une implémentation existante que vous pouvez utiliser est PhantomJSDriver.

+0

Merci pour le conseil, connaissez-vous des tutoriels sur la façon de configurer PhantomJS avec Java? –

+0

Voici un tutoriel sur la façon d'explorer les pages AJAX avec StormCrawler http://digitalpebble.blogspot.co.uk/2017/04/crawl-dynamic-content-with-selenium-and.html –

+0

Le meilleur que je puisse penser utilise le PhantomJSDriver mis en œuvre par Java pour contrôler PhantomJS: https://github.com/detro/ghostdriver –