Je suis en train de mettre en place un classificateur Naive Bayes pour essayer de déterminer l'identité entre deux enregistrements de cinq propriétés de corde. Je ne compare que chaque paire de propriétés exactement (c'est-à-dire, avec une méthode java .equals()). J'ai quelques données d'entraînement, à la fois TRUE et FALSE, mais concentrons-nous sur les cas VRAI pour le moment. Disons qu'il existe des cas de formation TRUE où les cinq propriétés sont différentes. Cela signifie que chaque comparateur échoue, mais les enregistrements sont en fait déterminés à être les mêmes après une évaluation humaine.Faut-il donner des cas d'entraînement «trompeurs» à un classificateur Naive Bayes?
Est-ce que ce cas d'entraînement doit être acheminé au classificateur Naive Bayes? D'une part, compte tenu du fait que NBC traite chaque variable séparément, ces cas ne devraient pas le casser totalement. Cependant, il semble certainement vrai que l'alimentation d'un nombre suffisant de ces cas ne serait pas bénéfique pour la performance du classificateur. Je comprends que voir beaucoup de ces cas signifierait que de meilleurs comparateurs sont nécessaires, mais je me demande ce qu'il faut faire pour le moment. Une autre considération est que le revers de la médaille est impossible; c'est-à-dire qu'il est impossible que les cinq propriétés soient identiques entre deux enregistrements et qu'elles soient toujours des enregistrements 'différents'.
S'agit-il d'un problème préférentiel, ou y a-t-il une pratique généralement acceptée pour ce faire?
Il me semble qu'un algorithme d'apprentissage ne devrait être appliqué que dans les cas où il a la capacité de faire la distinction correcte. S'il y a des cas VRAIS que l'algorithme n'est pas capable de détecter alors comme vous l'avez dit, il devrait être amélioré. Si le problème provient d'une entrée humaine, vous pouvez essayer de le standardiser en supprimant tous les caractères spéciaux et en changeant toutes les lettres en majuscules ou en minuscules.Vous pouvez également utiliser une comparaison plus nuancée et essayer d'extraire les fautes de frappe courantes ou les fautes d'orthographe. –