Supposons que je les données suivantes:Colonnes dans Corrélés Détection des données
OrderNumber | CustomerName | CustomerAddress | CustomerCode
1 | Chris | 1234 Test Drive | 123
2 | Chris | 1234 Test Drive | 123
Comment puis-je détecter que les colonnes « CustomerName », « CustomerAddress » et « CustomerCode » tout en parfaite corrélation? Je pense que Sql Server data mining est probablement le bon outil pour le travail, mais je n'ai pas trop d'expérience avec ça.
Merci d'avance.
MISE À JOUR:
Par « corrélat », je veux dire au sens statistique, que chaque fois que la colonne est un x, colonne b y sera. Dans les données ci-dessus, les trois dernières colonnes sont en corrélation les unes avec les autres, et la première colonne ne le fait pas.
L'entrée de l'opération serait le nom de la table, et la sortie serait quelque chose comme:
Column 1 | Column 2 | Certainty
CustomerName | CustomerAddress | 100%
CustomerAddress | CustomerCode | 100%
Vous voulez dire 'statistiques' comme dans le coefficient de corrélation de Pearson 'r'? –
Et btw oui, DM est le meilleur match pour cela car il vous permettra d'identifier rapidement des groupes d'éléments avec des attributs similaires –