2016-05-20 1 views
1

J'essaie de lancer la commande algorytmm hlda et de produire une hiérarchie descriptive des documents d'entrée. Le problème est que je cours divers paramètres configs et essaye de comprendre comment cela fonctionne d'une manière "empirique", parce que je ne peux pas correspondre à ceux qui sont utilisés dans les documents originaux (je comprends que c'est une équipe différente). Par exemple. alpha dans Mallet semble être eta dans le document, mais je ne suis pas très sûr. D'ailleurs, je ne peux pas connaître les limites pour chacun d'entre eux. Je veux dire, la gamme de valeurs possibles pour chaque paramètre.Gamme de valeurs possibles pour les paramètres alpha, gamma et eta de l'implémentation Mallet de HLDA

Dans le code source, il y a un peu d'aide:

double alpha; // smoothing on topic distributions 
double gamma; // "imaginary" customers at the next 
double eta; // smoothing on word distributions. 

D'abord, j'utilisé les valeurs par défaut: alpha = 10,0; gamma = 1,0; eta = 0,1;

Ensuite, j'ai essayé de lancer l'algorythme en changeant les valeurs et en interprétant les résultats, mais je ne peux pas comprendre leur signification. Par exemple. Je pense que le changement de gamma (dans Mallet) a un effet sur la décision des clients: commencer un nouveau nœud dans l'arbre ou le placer dans un nœud existant. Donc, si je mets gamma = 0.5, moins de nœuds devraient être produits, car 0.5 est la moitié de la probabilité de celui par défaut, n'est-ce pas? Mais les résultats avec gamma = 1 me donnent 87 nœuds, et avec gamma = 0.5, ça renvoie 98! Et puis, je me demande quelque chose de nouveau: est-ce une probabilité? Je tentais de trouver la gamme de valeurs possibles dans ces deux documents, mais je ne les trouve pas:

  1. Hierarchical Topic Models andthe Nested Chinese Restaurant Process
  2. The Nested Chinese Restaurant Process and BayesianNonparametric Inference of Topic Hierarchies

Je sais que je pourrais manquer quelque chose, parce que je Je n'ai pas une bonne expérience à ce sujet, mais c'est pourquoi je demande ici, peut-être que quelqu'un a déjà eu ce problème et peut m'aider à comprendre ces limites.

Merci d'avance!

Répondre

2

Il peut être utile de lancer plusieurs fois avec chaque paramètre d'hyperparamètre. Je soupçonne que le gamma n'a pas une grande influence sur le nombre final de sujets, et que ce que vous voyez pourrait simplement être une variabilité typique dans le processus d'échantillonnage. D'après mon expérience, le paramètre qui a de loin la plus forte influence sur le nombre de sujets est en fait eta, le lissage de mots-sujets.