J'ai formé un classificateur de spam en utilisant la méthode NLTK Naive Bayes. Le jeu de spams et le jeu de spams comportent tous deux 20 000 instances de mots en formation.Comment changer la méthode de lissage du classificateur Naive Bayes en NLTK?
J'ai remarqué que lors de la rencontre une des caractéristiques inconnues, l'classifier
il donne 0.5
probabilité de spam:
>>> print classifier.prob_classify({'unkown_words':True}).prob('spam')
0.5
Je sais que cela est appelé Laplace Smoothing
dans la classification de Bayes. Cependant, je veux placer la probabilité de courrier indésirable de unknown features à 0.4
, parce que les caractéristiques inconnues sont plus probablement des utilisateurs normaux. Comment puis-je l'implémenter avec NLTK?
avez-vous trouvé un moyen de découvrir des NLTK bayésiens naïfs fait un calcul? Pouvez-vous répondre [cette question] (http://stackoverflow.com/questions/27897591/python-nltk-naive-bayes-classifier-what-is-the-underlying-computation-that-this)? – modarwish