2010-11-09 7 views
0

Je dois migrer un site Web vers un nouveau CMS. Nous n'avons pas accès au site d'origine sauf via http://mysite.com. Nous avons actuellement une variété de scripts que i). indexer le site et le ii). créer une hiérarchie et iii). grattez le contenu unique (c'est-à-dire ignorez l'en-tête/le pied de page/le modèle, etc.). Les scripts fonctionnent vraiment très bien sauf l'indexation du site. Y at-il un bon utilitaire qui peut indexer toutes les URL uniques d'un site.Site Web d'index pour l'importation vers CMS

Actuellement nous utilisons un mélange de

$oHTML = new simple_html_dom(); 
$oHTML->setBody(file_get_contents('http://mysite.com')); 
foreach($oHTML->find('a') as $oLink) {} 

et une fonction récursive pour frapper tous les liens uniques ...

La question est ... PHP est lent et frappe les limites de mémoire rapide .. est-ce la bonne chose à faire? Puis-je utiliser sphynx ou un moteur de recherche opensource ou quelque chose à faire pour moi ...

+0

essayez de regarder les générateurs de sitemap en ligne pour générer un fichier XML de tous les sites URLS – Brady

+0

Je les ai regardés précédemment. Le site a environ 3k pages de profondeurs variables. Aucun que j'ai trouvé ont été satisfaisants. – Simon

+1

quel est votre plan pour déployer sphinx? pour 3k urls, sphinx probablement besoin de quelques secondes pour indexer – ajreal

Répondre

0
  1. utilisation wget pour explorer les sites et archives sur le disque local
  2. après terminée, faire une découverte pour tous les fichiers (en supposant * .htm), faire un strip_html_tags et insérer dans la base de données
  3. puis utilisez la bibliothèque PECL pour faire sphynx indexation sphinx::buildExcerpts

Ou, après l'étape 2
il suffit d'exécuter l'indexeur pour re-ind sphynx ex