Cela fait partie d'une recherche d'information que je fais pour l'école. Le plan consiste à créer une hashmap de mots en utilisant les deux premières lettres du mot comme une clé et tous les mots avec les deux lettres enregistrées en tant que valeur de chaîne. Ainsi,Aide à la construction d'un index inversé
hashmap [ « ba »] = « mauvaise base de l'orge »
Une fois que je suis fait tokenizing une ligne que je prends ce hashmap, sérialisation, et l'annexer au fichier texte du nom de la clé. L'idée est que si je prends mes données et que je les déploie sur des centaines de fichiers, je vais réduire le temps nécessaire pour effectuer une recherche en diminuant la densité de chaque fichier. Le problème que je rencontre est quand je fais plus de 100 fichiers dans chaque exécution, il arrive à s'étouffer sur la création de quelques fichiers pour une raison quelconque et donc ces entrées sont vides. Y a-t-il un moyen de rendre cela plus efficace? Cela vaut-il la peine de continuer ou devrais-je l'abandonner?
Je voudrais mentionner que j'utilise PHP. Les deux langues que je connais relativement intimement sont PHP et Java. J'ai choisi PHP parce que le frontal sera très simple à faire et je serai en mesure d'ajouter des fonctionnalités comme la complétion automatique/suggestion de recherche sans problème. Je ne vois aucun avantage à utiliser Java. Toute aide est appréciée, merci.
L'utilisation d'une base de données serait-elle une option? – VolkerK
Malheureusement pas. Je dois indexer et sélectionner tout par moi-même. – tipu