J'ai une collection statique de plus de 300 000 fichiers texte et html. Je veux être capable de les rechercher des mots, des expressions exactes, et idéalement des motifs regex. Je veux que les recherches soient rapides.Comment indexer 300 000 fichiers texte pour la recherche?
Je pense que la recherche de mots et de phrases peut être faite en recherchant un dictionnaire de mots uniques faisant référence aux fichiers qui contiennent chaque mot, mais y a-t-il un moyen d'obtenir une correspondance rationnelle raisonnable?
Cela ne me dérange pas d'utiliser un logiciel existant s'il en existe.
Vous ** ne me dérange pas l'aide du logiciel exsiting **? Sérieusement, ce problème est trop complexe pour une personne à mettre en œuvre en temps opportun. Cela n'appartient pas ici. –
Oui, la recherche rapide d'expressions régulières est possible, comme le montre la page http://www.google.com/codesearch. Mais je n'ai aucune idée de comment ils ont fait ça. –
Ils sont Google, c'est comme ça. – jtbandes