Disons que j'ai un système MDM (Master Data Management) dont l'application principale est de détecter et d'empêcher la duplication des enregistrements. Chaque fois qu'un représentant commercial entre un nouveau client dans le système, ma plateforme MDM vérifie les enregistrements existants, calcule la distance Levenshtein ou Jaccard ou XYZ entre une paire de mots ou de phrases ou attributs, considère les poids et les coefficients et les sorties un score de similarité, et ainsi de suite.Comment appliquer l'apprentissage automatique à la correspondance floue
Votre scénario de correspondance floue typique.
Je voudrais savoir s'il est judicieux d'appliquer des techniques d'apprentissage automatique pour optimiser la sortie de correspondance, c'est-à-dire trouver des doublons avec une précision maximale.
Et où exactement cela a le plus de sens.
- optimiser les poids des attributs?
- augmenter la confiance de l'algorithme en prédisant le résultat de la correspondance?
- apprendre les règles de correspondance que sinon je configurer dans l'algorithme?
- autre chose?
Il y a aussi this excellent answer sur le sujet mais je n'ai pas vraiment compris si le gars utilisait effectivement ML ou non. Je crois comprendre que la correspondance approximative pondérée est déjà une bonne solution, probablement même d'un point de vue financier, puisque chaque fois que vous déployez un tel système MDM, vous devez effectuer une analyse et un prétraitement de toute façon, que ce soit manuellement règles de correspondance ou formation d'un algorithme ML. Donc, je ne suis pas sûr que l'ajout de ML représenterait une proposition de valeur significative.
Toutes les pensées sont appréciées.
Mon intuition est que le gain incrémental que vous obtiendriez ne justifierait pas l'effort. Ce qui serait intéressant est d'utiliser le traitement/la compréhension du langage naturel pour fournir un contexte supplémentaire lors de la recherche d'éventuels doublons, mais ce ne serait pas un petit projet! – ImDarrenG
Si vous poursuivez ce projet, une chose à surveiller sera le résultat essentiellement binaire de votre tâche (match vs no match), combiné avec un jeu de données potentiellement déséquilibré (plus de non-matches que de matches). Vous pourriez vous retrouver avec une machine qui a l'air très précise, mais qui ne fait que vous dire ce que vous savez déjà. – ImDarrenG
Vous parlez d'overfitting l'ensemble d'entraînement, je suppose. C'est l'un des problèmes potentiels qui me font hésiter à introduire le ML dans un tel système. – TXV