2011-08-16 6 views
-2

Je vais utiliser curl pour récupérer des milliers de sites Web pour adultes. Mon but est de les stocker dans MySQL pour permettre aux utilisateurs de rechercher facilement dans la nouvelle base de données et de trouver la page désirée sans avoir à subir tous les popups, spywares, etcmeilleure façon de configurer une base de données MySQL pour stocker des données Web

Ce sera un moteur de recherche pour les sites web pour adultes ... un peu le google des sites Web pour adultes, mais sans les sites malveillants qui trouvent leur chemin sur google de temps en temps. À la première exécution, j'ai téléchargé environ 700 000 lignes avec environ 20 Go de données. Initialement, j'ai stocké toutes les informations dans un seul tableau avec des colonnes pour l'URL, le code de la page HTML, PAGE sans balises HTML, MOTS CLÉS, TITRE et quelques autres.

J'utilise une requête MATCH AGAINST pour rechercher la page souhaitée par les utilisateurs dans TITRE, MOTS CLÉS, PAGE SANS HTML dans n'importe quelle variété de combinaisons ou singulièrement.

Ma question est ... serais-je mieux de fractionner toutes ces colonnes en tables séparées et cela améliorerait-il la rapidité des recherches?

Y a-t-il un avantage à stocker toutes les données dans plusieurs tables, puis à utiliser JOIN pour extraire les données? Je me demande simplement si je dois être proactif et penser à des charges de recherche élevées pour les utilisateurs.

+0

_ Restez classe, San D-_ Je veux dire, SO. –

+0

Pendant que vous êtes proactif, vous pourriez vouloir engager un avocat et/ou un garde du corps. L'industrie des adultes ne sera probablement pas très heureuse de votre violation flagrante des droits d'auteur. Aussi, attendez que votre bot cURL soit bloqué assez rapidement. – ceejayoz

Répondre

1

MySQL n'est pas bon avec la recherche de texte intégral et n'a jamais été.

Regardez dans Sphinx ou Lucene/Solr, ils sont le meilleur ajustement pour le travail. Je suggère de coller à l'ancien.

+0

Nice, est-ce que ça va bien s'intégrer avec PHP? – simian

+0

En effet http://pecl.php.net/package/sphinx – sanmai

Questions connexes