2017-04-18 1 views
0

Je cherche à implémenter un classificateur Naive Byes pour un site de révision afin d'identifier les critiques de spam et poser quelques questions.Plusieurs classificateurs Naive Bayes

  1. Il me semble il y a plusieurs types de spam, comme les déchets de marketing pur et simple avec rien à voir avec la chose qu'ils examinent, par rapport à un examen trompeur. Serait-il judicieux d'implémenter plusieurs classificateurs à des fins différentes pour que l'on améliore la détection générale des spams, tandis que l'autre apprend des critiques trompeuses? Dans un même ordre de grandeur, il existe plusieurs catégories d'articles examinés, donc pour le classificateur "révision trompeuse", serait-il préférable d'avoir un seul classificateur qui essaie d'apprendre de toutes les critiques? ou serait-il préférable d'avoir un classificateur par catégorie afin qu'il puisse être capable d'apprendre des nuances dans ces catégories?

Je sais que ce ne sera pas tromper la preuve, il est juste sur le signalement des critiques potentiels pour la vérification manuelle, mais je ne suis pas clair sur la meilleure configuration.

Répondre

0

Tant que vous utilisez un algorithme suffisamment complexe, vous devriez être en mesure de distinguer les «bonnes» et les «mauvaises» données avec l'une ou l'autre méthode. Si vous faites tout cela avec un seul modèle, vous aurez simplement besoin d'augmenter la taille du modèle pour que le modèle complet puisse construire (au pire) des chemins indépendants vers les deux décisions, "spam" et "tromperie".

Si vous vous entraînez sur trois classifications distinctes: bonne, spam et trompeuse; alors vous allez bien de toute façon. Notez, cependant, que la taille de votre modèle est plus petite avec des entraînements séparés, et vos temps d'entraînement seront plus courts, car il y aura moins de suppositions inexactes sur le chemin. D'autre part, l'utilisation de deux modèles pour une utilisation réelle ultérieure ralentira probablement la détection, car chaque sortie qui passe le premier modèle doit passer par la seconde. Pour la plupart des applications, cette fois n'est pas un facteur significatif. Par-dessus tout, je commencerais par un modèle distinct pour chaque classe: tout problème de mise en œuvre et de formation sera plus rapide à trouver et plus facile à isoler.