2011-03-10 2 views
3

Je travaille actuellement sur une tâche de classification en utilisant la modélisation du langage. La première partie du projet consistait à utiliser des modèles de langage n-gram pour classer les documents en utilisant c5.0. La dernière partie du projet nécessite que j'utilise l'entropie croisée pour modéliser chaque classe et classer les cas de test par rapport à ces modèles. Est-ce que quelqu'un a déjà utilisé l'entropie croisée ou des liens vers des informations sur l'utilisation d'un modèle d'entropie croisée pour l'échantillonnage de données? Toute information serait géniale! MerciCross Entropy pour la modélisation du langage

Répondre

1

Vous pouvez obtenir des informations théoriques sur l'utilisation de l'entropie croisée avec des modèles de langage sur divers manuels, par ex. "Orthophonie" par Jurafsky & Martin, pages 116-118 dans la 2ème édition. En ce qui concerne l'utilisation du béton, dans la plupart des outils de modélisation du langage, l'entropie croisée n'est pas directement mesurée, mais la «perplexité», qui est l'exp de l'entropie croisée. La perplexité, à son tour, peut être utilisée pour classer les documents. voir, par exemple. la documentation relative à la commande 'evallm' dans SLM, les outils de modélisation linguistique de l'université Carnegie-Melon (http://www.speech.cs.cmu.edu/SLM/toolkit_documentation.html)

bonne chance :)