Je dois migrer un site Web vers un nouveau CMS. Nous n'avons pas accès au site d'origine sauf via http://mysite.com. Nous avons actuellement une variété de scripts que i). indexer le site et le ii). créer une hiérarchie et iii). grattez le contenu unique (c'est-à-dire ignorez l'en-tête/le pied de page/le modèle, etc.). Les scripts fonctionnent vraiment très bien sauf l'indexation du site. Y at-il un bon utilitaire qui peut indexer toutes les URL uniques d'un site.Site Web d'index pour l'importation vers CMS
Actuellement nous utilisons un mélange de
$oHTML = new simple_html_dom();
$oHTML->setBody(file_get_contents('http://mysite.com'));
foreach($oHTML->find('a') as $oLink) {}
et une fonction récursive pour frapper tous les liens uniques ...
La question est ... PHP est lent et frappe les limites de mémoire rapide .. est-ce la bonne chose à faire? Puis-je utiliser sphynx ou un moteur de recherche opensource ou quelque chose à faire pour moi ...
essayez de regarder les générateurs de sitemap en ligne pour générer un fichier XML de tous les sites URLS – Brady
Je les ai regardés précédemment. Le site a environ 3k pages de profondeurs variables. Aucun que j'ai trouvé ont été satisfaisants. – Simon
quel est votre plan pour déployer sphinx? pour 3k urls, sphinx probablement besoin de quelques secondes pour indexer – ajreal