3

Disons que j'ai un système MDM (Master Data Management) dont l'application principale est de détecter et d'empêcher la duplication des enregistrements. Chaque fois qu'un représentant commercial entre un nouveau client dans le système, ma plateforme MDM vérifie les enregistrements existants, calcule la distance Levenshtein ou Jaccard ou XYZ entre une paire de mots ou de phrases ou attributs, considère les poids et les coefficients et les sorties un score de similarité, et ainsi de suite.Comment appliquer l'apprentissage automatique à la correspondance floue

Votre scénario de correspondance floue typique.

Je voudrais savoir s'il est judicieux d'appliquer des techniques d'apprentissage automatique pour optimiser la sortie de correspondance, c'est-à-dire trouver des doublons avec une précision maximale.
Et où exactement cela a le plus de sens.

  • optimiser les poids des attributs?
  • augmenter la confiance de l'algorithme en prédisant le résultat de la correspondance?
  • apprendre les règles de correspondance que sinon je configurer dans l'algorithme?
  • autre chose?

Il y a aussi this excellent answer sur le sujet mais je n'ai pas vraiment compris si le gars utilisait effectivement ML ou non. Je crois comprendre que la correspondance approximative pondérée est déjà une bonne solution, probablement même d'un point de vue financier, puisque chaque fois que vous déployez un tel système MDM, vous devez effectuer une analyse et un prétraitement de toute façon, que ce soit manuellement règles de correspondance ou formation d'un algorithme ML. Donc, je ne suis pas sûr que l'ajout de ML représenterait une proposition de valeur significative.

Toutes les pensées sont appréciées.

+0

Mon intuition est que le gain incrémental que vous obtiendriez ne justifierait pas l'effort. Ce qui serait intéressant est d'utiliser le traitement/la compréhension du langage naturel pour fournir un contexte supplémentaire lors de la recherche d'éventuels doublons, mais ce ne serait pas un petit projet! – ImDarrenG

+1

Si vous poursuivez ce projet, une chose à surveiller sera le résultat essentiellement binaire de votre tâche (match vs no match), combiné avec un jeu de données potentiellement déséquilibré (plus de non-matches que de matches). Vous pourriez vous retrouver avec une machine qui a l'air très précise, mais qui ne fait que vous dire ce que vous savez déjà. – ImDarrenG

+0

Vous parlez d'overfitting l'ensemble d'entraînement, je suppose. C'est l'un des problèmes potentiels qui me font hésiter à introduire le ML dans un tel système. – TXV

Répondre

1

Le principal avantage de l'apprentissage automatique est le gain de temps.

Il est très probable que, si vous disposez de suffisamment de temps, vous pouvez régler manuellement les poids et trouver des règles de correspondance qui conviennent très bien à votre jeu de données. Une approche d'apprentissage automatique pourrait avoir du mal à surpasser votre système personnalisé pour un ensemble de données particulier.

Cependant, cela prendra probablement des jours pour faire un bon système d'adaptation à la main. Si vous utilisez un ML existant pour l'outil correspondant, comme Dedupe, alors les bons poids et les règles peuvent être appris en une heure (y compris le temps de mise en place). Donc, si vous avez déjà construit un système correspondant qui fonctionne bien sur vos données, il ne vaut peut-être pas la peine d'étudier ML. Mais, s'il s'agit d'un nouveau projet de données, ce sera certainement le cas.

+0

Oui, j'ai un système de correspondance qui peut fonctionner sur différents ensembles de données. Je vais vérifier Dedupe. Sur une note de côté, je ne comprends pas pourquoi ma question a été downvoted, alors merci d'avoir pris le temps de répondre de toute façon. – TXV

0

Traditionnellement, les logiciels de correspondance d'enregistrements flous souffrent d'une grande implication de l'utilisateur dans le paramétrage du projet et l'examen de bureau. L'utilisateur doit soit fournir divers paramètres d'entrée et valeurs de seuil, soit fournir des exemples de correspondances et de non-appariements pour l'apprentissage automatique. Dans les deux cas, la participation et l'expertise considérables des utilisateurs sont des conditions préalables à une analyse réussie. La principale utilité de l'apprentissage automatique non supervisé est de permettre au logiciel de concevoir la solution automatiquement, sans intervention de l'utilisateur. Il existe au moins un tel logiciel de correspondance floue utilisant l'apprentissage automatique, appelé "ReMaDDer": http://remaddersoft.wixsite.com/remadder