Wordpress a un plugin de filtrage de spam appelé Akismet qui semble pouvoir classer n'importe quel bloc de texte comme spam ou non. Le seul inconvénient étant que vous devez passer par leur interface et leur base de données/algorithme n'est pas ouvert ou facilement disponible otherwies.Existe-t-il une base de données anti-spam gratuite?
Il existe également des fournisseurs commerciaux qui fournissent une API Web accessible pour vous permettre de classer les courriels, les commentaires ou tout autre texte soumis par les utilisateurs dans votre application Web.
Y at-il une sorte de base de données open source ou librement accessible qui peut classer un bloc de texte comme spam/non-spam?
Edit: Voici une explication plus claire de ce que je veux
Fondamentalement, j'espérais qu'il y avait une vaste base de données là-bas avec les probabilités de certaines phrases étant du spam. Puisque (je suppose), les spammeurs spamment toutes les adresses e-mail de la même manière, en pré-remplissant mon filtre de spam bayésien avec cette base de données, je pourrais créer une application qui commence par capturer la plupart des spams. Mise à jour
Je cherche plus pour une base de données qui peut classer un bloc de texte comme spam ou maintenant. Akismet (un plugin wordpress), par exemple, peut classer n'importe quel commentaire comme spam ou non. –
Comme indiqué par Jon, une base de données n'est pas très utile pour la classification. Akismet imite la génération procédurale utilisée pour créer du spam plutôt que de le comparer à une base de données. – JoshJordan
Merci pour ces liens. Bien qu'il y ait beaucoup d'algorithmes pour classer le spam, une bonne base de données de signatures de spam est TRÈS précieuse. J'espérais que quelqu'un comme Wordpress ou Google avait publié leurs signatures de spam comme une base de données gratuite. Peu probable, je sais. Mais un homme peut rêver non? –