2017-08-25 2 views
0

Je veux évaluer le plus souvent les mots dans l'index de sphinx. La seule méthode que j'ai trouvée c'est /usr/bin/indexer -c /etc/sphinxsearch/sphinx.conf indexname --buildfreqs --buildstops /home/user/test.txt 1000. Mais cette méthode ne considère pas la morphologie. Un mot sous différentes formes comptant comme plusieurs mots. Peut-être existe-t-il une autre méthode pour compter tous les mots indexés?Est-ce que sphinx peut compter tous les mots dans son index en utilisant la morphologie?

+0

Avez-vous essayé 'indextool --dumpdict'? Pourvu qu'un dict = keywords index pense que cela aidera. – barryhunter

+0

J'ai essayé de faire un dumdict mais de toute façon il n'utilise pas de formes morphologiques. –

+0

Etes-vous sûr? Je pense qu'il doit. car seule la version modifiée est stockée dans l'index. Il doit être la version morthed afin que les mots clés correspondent. dumpdict est le dumping du dictionnaire réel de l'index! - juste vérifié sur un de mes index, et il contient 'bridg, 2738,6794,11805033' - mais qui est la version 'normalisée'. ce mot sur son propre n'existe pas – barryhunter

Répondre

1

Comme indiqué dans les commentaires, peut utiliser indextool --dumpdict - qui devrait donner le nombre de mots de l'index. Parce que c'est à partir de l'index, il a déjà été «normalisé» selon charset_table, wordforms, et même la morphologie.

(mais ne fonctionne que sur un indice dict=keywords)