2009-07-26 6 views
5

Wordpress a un plugin de filtrage de spam appelé Akismet qui semble pouvoir classer n'importe quel bloc de texte comme spam ou non. Le seul inconvénient étant que vous devez passer par leur interface et leur base de données/algorithme n'est pas ouvert ou facilement disponible otherwies.Existe-t-il une base de données anti-spam gratuite?

Il existe également des fournisseurs commerciaux qui fournissent une API Web accessible pour vous permettre de classer les courriels, les commentaires ou tout autre texte soumis par les utilisateurs dans votre application Web.

Y at-il une sorte de base de données open source ou librement accessible qui peut classer un bloc de texte comme spam/non-spam?

Edit: Voici une explication plus claire de ce que je veux

Fondamentalement, j'espérais qu'il y avait une vaste base de données là-bas avec les probabilités de certaines phrases étant du spam. Puisque (je suppose), les spammeurs spamment toutes les adresses e-mail de la même manière, en pré-remplissant mon filtre de spam bayésien avec cette base de données, je pourrais créer une application qui commence par capturer la plupart des spams. Mise à jour

Répondre

1

basé sur le commentaire:

Je ne pense pas qu'une simple base de données ferait l'affaire. La plupart des spams sont générés de manière algorithmique (par exemple, le spam de commentaire intègre généralement le contenu de la publication). Akismet fait une combinaison de choses, incluant probablement l'analyse de liens et l'utilisation de signatures de spam connues, mais elles ne le publient pas.

J'ai lu à propos de quelques projets AI intéressants à classify good rather than bad content. Vous pouvez également regarder Spam Karma, qui analyse les commentaires de blog basés sur une variété de déclencheurs de spam (post de réponse immédiatement après le chargement de la page, etc.).


réponse d'origine (listes noires DNS):

+0

Je cherche plus pour une base de données qui peut classer un bloc de texte comme spam ou maintenant. Akismet (un plugin wordpress), par exemple, peut classer n'importe quel commentaire comme spam ou non. –

+0

Comme indiqué par Jon, une base de données n'est pas très utile pour la classification. Akismet imite la génération procédurale utilisée pour créer du spam plutôt que de le comparer à une base de données. – JoshJordan

+0

Merci pour ces liens. Bien qu'il y ait beaucoup d'algorithmes pour classer le spam, une bonne base de données de signatures de spam est TRÈS précieuse. J'espérais que quelqu'un comme Wordpress ou Google avait publié leurs signatures de spam comme une base de données gratuite. Peu probable, je sais. Mais un homme peut rêver non? –

1

Peut-être que c'est totalement une question morte - cependant, vérifiez ceci: http://www.stopforumspam.com Utilisez leur API pour vérifier l'adresse IP ou entré des noms d'utilisateur ou des courriels contre leur base de données. Mais je vous conseille d'utiliser cURL avec son paramètre timeout - le service peut parfois ne pas vous arriver à expiration.

Questions connexes