Je développe un composant qui stocke les URL et maintient un certain ensemble de mots-clés associés à ces URL. Pour exemple-Stocker des URL avec des mots-clés - quelle est la meilleure approche?
URL: http://www.imdb.com Mots-clés: recherche, films, film-index, revue
Les mots-clés eux-mêmes ne sont pas limités par le nombre. Le nombre d'urls peut être énorme en nombre compris entre 10K à 100K. Quelle est la meilleure approche pour associer et stocker les URL avec leurs mots-clés? Cela devrait soutenir la recherche par mots-clés et listes basées sur des combinaisons de mots-clés. Je ne pense pas que ce soit une bonne approche pour utiliser la base de données relationnelle pour cela. Peut-être que ma question résume à "comment fonctionne un moteur de recherche". Mais je cherche des informations plus spécifiques comme: Existe-t-il des outils disponibles pour stocker les mots-clés et les indexer? J'ai entendu parler d'Apache Lucene, qui ressemble plus à un moteur de recherche en texte intégral.
Qu'est-ce que stackoverflow utilise en interne pour associer les mots-clés aux articles?
Vous devriez regarder Apache Solr (construit sur Lucene) pour vos besoins. Il fait exactement ce dont vous avez besoin. – Mikos