Je veux construire un service de recherche pour une chose en particulier. Les données sont librement disponibles là-bas, via des services classifiés gratuits, et une foule d'autres sites.Y a-t-il des blocs de construction pour un moteur de recherche qui va gratter d'autres sites?
Y a-t-il des blocs de construction, par ex. crawlers open-source que je personnaliserais - plutôt que de construire à partir de zéro, que je peux utiliser?
Des conseils sur la construction d'un tel produit? Pas seulement technique, mais toute la vie privée/les choses juridiques que je pourrais avoir besoin de prendre en considération.
E.g. Ai-je besoin de «donner du crédit» d'où proviennent les résultats et de mettre un lien vers l'original - si je les trouve dans de nombreux endroits? Edit: En passant, j'utilise GWT avec JS pour le front-end, je n'ai pas encore décidé de la langue pour le back-end. Soit PHP ou Python. Pensées?
Donc, je suppose que la notion est que je créerais un «scraper d'écran» et l'analyse du code HTML et de prendre l'information utile, puis le dumping dans un db? Est-ce le processus général? – marcamillion
Pour moi, c'était assez générique ... la seule limitation que je vois est qu'il n'y a ni javascript ni moteur flash pour simuler pleinement webbrowser. Vous pouvez cependant ajouter js avec la liaison spidermonkey - je n'ai jamais eu besoin de ça. – liori