2010-08-25 4 views
0

Je travaille sur un projet dans lequel je dois créer une base de données de spam et accepter les soumissions des utilisateurs. Accepter les soumissions est facile, mais j'essayais de comprendre comment pondérer ces soumissions.Comment créer une base de données de spam personnalisée

Disons que la base de données se compose de mots, et je reçois les arguments suivants: * 137x « banane » * 22x « pomme » * 1x « souris explosion »

Maintenant, il y a une assez bonne chance que "banane" est un mot spam. "Apple" pourrait être, mais devrait probablement être considéré dans une liste grise, alors que "l'explosion de la souris" est probablement juste une farce.

Quelqu'un a-t-il eu de bonnes idées?

À la votre!

Répondre

0

La méthode standard est "bayésienne", où vous comparez les fréquences des mots dans le spam contre les fréquences des mots dans le non-spam (aka "ham"). Le problème avec cela est que les gens seraient parfaitement disposés à vous envoyer tout leur spam, ils ne sont pas susceptibles de vouloir vous transmettre leur jambon.

Un programme qui fait déjà cela est appelé "Bogofilter". Il y a un paquet Debian standard pour cela.

+0

Merci, Paul. Alors que je ne peux pas obtenir tout le jambon, je peux collecter des statistiques et obtenir le nombre total d'occurrences de n'importe quoi et comparer à la fréquence du spam. Que diriez-vous de mettre la probabilité à un pourcentage des occurrences du plus élevé se plaignait de "mot"? Si "banana" a 100 rapports comme spam, alors que "apple" n'en a que 40, je pourrais dire qu'il y a 40% de chance que "apple" soit du spam? Le fait est que ce db sera utilisé dans différentes parties du monde, ainsi "banana" serait rapporté comme spam beaucoup plus que "banan" (scandinave). – user296353

+0

Si "eple" (scandinave pour "pomme") a obtenu 40% autant de succès que "banan" et "banan" a reçu 7% autant de hits que "banana", "eple" serait considéré comme du jambon presque n'importe quoi nombre de rapports ont été (comme toute la Scandinavie est comme une moyenne grande ville américaine) ... – user296353

Questions connexes