2016-04-29 4 views
0

Je construis un petit moteur de recherche vertical en utilisant Elasticsearch comme indexeur et Nutch comme moteur de recherche. J'utilisais le champ titre HTML pour construire des suggestions de recherche pour ES en utilisant une stratégie edge n gram, pensant que le champ de titre serait bon car il devrait contenir des termes pertinents pour le contenu de la page et il garderait l'index plus petit en termes de recherche suggestions, que ce soit des mots ou des phrases simples. Cependant, en testant jusqu'à présent, il ne fonctionne pas comme prévu ... il n'y a tout simplement pas beaucoup de suggestions apparaissant. À l'heure actuelle, je ne fais que des tests sur une dizaine de sites, mais j'atteindrai environ 500 sites environ. Je pense qu'en raison du petit ensemble de données, (10 sites, seulement sur le champ de titre HTML) il n'y a probablement pas assez de termes ou d'expressions disponibles pour faire de bonnes suggestions, du moins des suggestions de phrases de toute façon. Serait-il conseillé de simplement explorer plus de sites pour créer plus de suggestions (termes et expressions) avec la stratégie edge n gram dans le champ de titre OU dois-je utiliser le champ de contenu (qui est évidemment beaucoup plus grand que le champ titre). J'essaie d'affiner ceci pour obtenir plus de suggestions de recherche, particulièrement des suggestions de phrase, tout en étant conscient de la taille d'index - de sorte que les performances ne souffrent pas. Des idées?Plus de suggestions de recherche avec Elasticsearch

Répondre

0

De nos jours, on pourrait dire que les suggestions sont encore plus importantes que les résultats de la recherche elle-même --- ce qui est un peu absurde, je sais. Mais les utilisateurs ont tendance à s'attendre à ce que s'il n'y a pas de suggestion, il n'y a pas de résultat de recherche. Par conséquent, assurez-vous que chaque champ consultable est correctement reflété dans vos suggestions --- en particulier votre contenu. Et "optimiser plus tard"! Ne regardez pas votre performance trop tôt. 500 sites ne semble pas vous donner beaucoup de documents à indexer de toute façon. Quel type de matériel utilisez-vous?

+0

pour le développement, juste ma machine Ubuntu locale, mais quand dev est fait, je prévois d'utiliser aws. – user3125823

+0

Je suis d'accord avec vous que les suggestions sont probablement un peu plus importantes que les résultats, du moins au début. Ce que vous dites est logique, mieux vaut d'abord avoir des suggestions, s'inquiéter des performances plus tard – user3125823