Est-ce que sphinx peut compter tous les mots dans son index en utilisant la morphologie?

Je veux évaluer le plus souvent les mots dans l'index de sphinx. La seule méthode que j'ai trouvée c'est /usr/bin/indexer -c /etc/sphinxsearch/sphinx.conf indexname --buildfreqs --buildstops /home/user/test.txt 1000. Mais cette méthode ne considère pas la morphologie. Un mot sous différentes formes comptant comme plusieurs mots. Peut-être existe-t-il une autre méthode pour compter tous les mots indexés?Est-ce que sphinx peut compter tous les mots dans son index en utilisant la morphologie?

Source

2017-08-25 abr_stackoverflow

Avez-vous essayé 'indextool --dumpdict'? Pourvu qu'un dict = keywords index pense que cela aidera. – barryhunter

J'ai essayé de faire un dumdict mais de toute façon il n'utilise pas de formes morphologiques. –

Etes-vous sûr? Je pense qu'il doit. car seule la version modifiée est stockée dans l'index. Il doit être la version morthed afin que les mots clés correspondent. dumpdict est le dumping du dictionnaire réel de l'index! - juste vérifié sur un de mes index, et il contient 'bridg, 2738,6794,11805033' - mais qui est la version 'normalisée'. ce mot sur son propre n'existe pas – barryhunter

Comme indiqué dans les commentaires, peut utiliser indextool --dumpdict - qui devrait donner le nombre de mots de l'index. Parce que c'est à partir de l'index, il a déjà été «normalisé» selon charset_table, wordforms, et même la morphologie.

(mais ne fonctionne que sur un indice dict=keywords)

Source

2017-08-29 12:45:34 barryhunter

Est-ce que sphinx peut compter tous les mots dans son index en utilisant la morphologie?

Répondre

Questions connexes