Je travaille sur un projet dans lequel je dois créer une base de données de spam et accepter les soumissions des utilisateurs. Accepter les soumissions est facile, mais j'essayais de comprendre comment pondérer ces soumissions.Comment créer une base de données de spam personnalisée
Disons que la base de données se compose de mots, et je reçois les arguments suivants: * 137x « banane » * 22x « pomme » * 1x « souris explosion »
Maintenant, il y a une assez bonne chance que "banane" est un mot spam. "Apple" pourrait être, mais devrait probablement être considéré dans une liste grise, alors que "l'explosion de la souris" est probablement juste une farce.
Quelqu'un a-t-il eu de bonnes idées?
À la votre!
Merci, Paul. Alors que je ne peux pas obtenir tout le jambon, je peux collecter des statistiques et obtenir le nombre total d'occurrences de n'importe quoi et comparer à la fréquence du spam. Que diriez-vous de mettre la probabilité à un pourcentage des occurrences du plus élevé se plaignait de "mot"? Si "banana" a 100 rapports comme spam, alors que "apple" n'en a que 40, je pourrais dire qu'il y a 40% de chance que "apple" soit du spam? Le fait est que ce db sera utilisé dans différentes parties du monde, ainsi "banana" serait rapporté comme spam beaucoup plus que "banan" (scandinave). – user296353
Si "eple" (scandinave pour "pomme") a obtenu 40% autant de succès que "banan" et "banan" a reçu 7% autant de hits que "banana", "eple" serait considéré comme du jambon presque n'importe quoi nombre de rapports ont été (comme toute la Scandinavie est comme une moyenne grande ville américaine) ... – user296353