Je viens de créer mon propre modèle Naive Bayes à partir de zéro et l'ai formé sur 776 documents. J'ai essayé de classer les documents, mais ils ont classé les documents erronés dans les trois documents d'essai. La catégorie qui aurait dû l'être avait la plus faible de toutes les probabilités par rapport aux autres catégories (c'est pour deux des trois documents de test).Combien de documents faut-il entraîner pour les bayes naïves?
Dois-je augmenter le nombre de documents de formation? Je ne pense pas que ce soit mon code parce que j'ai vérifié le calcul mais je ne sais pas, peut-être que la fonction compute_numerators est mal en quelque sorte ?? Pour la partie numérateur je les journaux en raison du problème underflow et a résumé les probabilités des termes et la probabilité de (number_of_documents_in_category/overall_number_of_documents)
super confus et découragé car cela m'a pris si longtemps et maintenant je me sens comme c'était pour rien parce qu'il n'a même pas classifié UN document correctement :(
@Bob Dillon, Salut, merci pour votre réponse complète.Ma plus grande question de ceci était ce que vous voulez dire par séparable. il y a une distinction claire des documents entre les classes? Je ne sais pas vraiment comment répondre à cela.Les données ont été classées par les humains donc la séparation est possible, mais peut-être ' s si proche d'autres types de catégories que ça devient flou? Peut-être que l'ordinateur ne reconnaît pas une différence dans les mots utilisés qui sont classés comme une chose par rapport à une autre catégorie? Je dois garder ces catégories, je ne peux pas réorganiser les catégories, elles doivent être telles quelles. Je ne sais pas comment prototyper en R, est-ce que je n'aurais pas encore besoin de saisir les données de texte et de les lancer? n'aurais-je pas encore besoin de créer une tokenisation, etc. Je vais regarder dans le gain d'information et SVM. Je vais probablement poster. Merci!
Eh bien, que comparez-vous pour savoir que c'est faux? De plus, le nombre magique dans les statistiques est 30. Tant que vous avez plus de 30 observations, la taille de votre échantillon devrait être assez grande. – FirebladeDan
Eh bien, le document de test est déjà classé, je veux juste voir si elle a été classée correctement. Et je compare le prédit avec le réel. Oui, j'ai 776 couvrant ainsi définitivement la base de 30, mais peut-être la classification de texte exige beaucoup plus ?? – hope288
Alors ne vous inquiétez pas pour votre échantillon, vous êtes bon. Cela n'a toujours aucun sens quel moteur vous comparez. Est-ce que votre ensemble formé est différent de celui fait en R ou Matlab. Je ne comprends toujours pas comment tu sais que c'est faux. – FirebladeDan