Je ne pense pas que vous pouvez facilement vérifier cela.Il ne s'agira probablement pas d'un simple problème de correspondance de chaînes sur lequel vous pouvez lancer une expression régulière, car j'imagine que votre utilisation du nom "Roger" n'était qu'un exemple, et qu'un nombre quelconque de noms pouvait apparaître dans cette position. Vous pouvez également exécuter l'une des expressions régulières fournies par les autres affiches, en la paramétrant avec chaque permutation du prénom et du nom de famille. Cela prendra probablement quelque part entre "trop long" et "pour toujours", et signalera beaucoup de faux positifs.
Une autre approche, qui fonctionne avec le modèle que vous avez posté ci-dessus, serait de prendre les 4 dernières lettres du nom d'utilisateur, et les comparer à quelque chose. Repérer les caractères aléatoires plutôt que disposés raisonnablement (en fonction d'une langue spécifique) peut être fait en entraînant une chaîne de Markov sur un texte légitime qui peut alors vous permettre de calculer la probabilité de 4 lettres apparaissant dans cet ordre dans cette langue. Pour les lettres aléatoires, cette probabilité sera généralement beaucoup plus faible que pour un nom légitime (bien qu'il y ait des caractères spéciaux ou des chiffres, tous les paris sont désactivés). Une autre façon pourrait être d'utiliser un filtre bayésien (par exemple quelque chose comme Reverend en Python, bien qu'il y en ait d'autres) formés sur les 4 dernières lettres d'adresses e-mail légitimes. Ce serait probablement 95% de ceux qui étaient tout à fait aléatoire, à condition que vous avez rendu les données utilisables. par exemple. Soumettre non seulement les 4 lettres mais chacune des sous-chaînes de 2 et 3 lettres à l'intérieur, pour capturer le contexte de chaque lettre. Je ne pense pas que cela fonctionnerait aussi bien que la méthode de Markov. Quel que soit le contrôle que vous effectuez, vous pouvez réduire les faux positifs en ne soumettant que certaines adresses e-mail (par exemple celles des adresses webmail, qui contiennent un trait de soulignement, avec au moins 3 caractères avant le trait de soulignement et 5 caractères après. Mais en fin de compte, vous ne pouvez jamais savoir si c'est une adresse de spam ou une vraie adresse de courrier indésirable jusqu'à ce qu'elle soit utilisée dans un but ou dans l'autre. Donc, si possible, je suggérerais de renoncer à essayer d'analyser le contenu et de corriger le problème ailleurs. De quelle manière sont-ils en train de tuer le taux de conversion? Si vous comptez ces comptes factices dans une sorte de mesure, il est préférable d'ajouter une étape de vérification en premier et de vous soucier uniquement des statistiques pour les comptes ayant réussi la vérification. Certaines personnes ont vraiment des adresses comme [email protected], après tout.
Révérend semble tout à fait génial, et merci pour la réponse génial! – RadiantHex