2013-05-29 4 views
1

Bonjour, J'ai une question conceptuelle sur un système que j'essaie de développer et qui essaye de classifier les emails. J'ai un grand ensemble (> 100k) messages qui ne sont pas des spams et un grand nombre de messages non classés. Est-il alors possible d'utiliser une méthode (peut-être bayésienne) pour détecter le spam sans disposer d'un ensemble de données de spam? Dois-je absolument classer les spams?Un réseau bayésien peut-il détecter les spams sans spam?

Répondre

1

Oui, vous pouvez le faire. Les résultats seront probablement plus mauvais que pour une méthode supervisée. Le problème général est souvent appelé détection d'anomalie. L'idée est de créer un modèle de vos données et de décider pour chaque nouvelle instance si elle provient de ce modèle ou non. Il y a beaucoup de méthodes pour le faire et choisir le bon est difficile. Vous pouvez commencer à étudier here.

Questions connexes