2009-06-15 9 views
2

Le titre de la question n'est probablement pas correct car une partie de ma question est d'essayer de mieux comprendre le problème. Je cherche les avantages de m'assurer que les données importées dans une base de données (exemple simple: table Excel vers la base de données Access) devraient être données en utilisant le même schéma et devraient également être valides pour les besoins de l'entreprise.Avantages de conserver un protocole pour un modèle de données

J'ai un tableau Excel ne contenant aucune donnée normalisée et une base de données Access avec des tables normalisées.

La table Excel provient de plusieurs tiers, dont aucun ne collent au même format que l'autre ou la base de données.

Certaines des sources ne fournissent pas non plus toutes les données pertinentes.

Exemple de ce qui pourrait être fourni

contact_key, date, CONTACT_TITLE, reject_name, reject_cost, count_of_unique_contact

count_of_unique_contact est dérivé de son distincts de CONTACT_TITLE et ne devraient pas être importés. La touche de contact n'est parfois pas fournie. titre est parfois inconnu et transmis en tant que tel "n/a", "nom = ?? 1342", "# N/A" etc plutôt aléatoire. reject_name est souvent épelé. les champs ne sont parfois même pas fournis, par ex. date et contact_key sont manquants. J'essaie de trouver des informations pour aider à expliquer les problèmes avec ce qui précède. Problèmes liés uniquement à des données ou à des champs incorrects, ce qui rend difficile l'accès à des données utiles dans la base de données, notamment le fait de ne pas pouvoir indiquer une tendance sur les coûts de rejet dans un mois non fourni. Normaliser le fichier Excel n'est pas une option disponible pour moi. Demander les valeurs et les champs dans les fichiers Excel pour correspondre aux exigences de l'entreprise et le format à être le même pour chaque tiers qui les envoie est ce que je veux faire mais la demande est tombé dans l'oreille d'un sourd. Je veux expliquer au client qu'entrer de fausses données et vérifier des rejets/contacts invalides/existants tout le temps est faux et que cela va échouer ou au mieux être difficile sans maintenance constante d'un système défectueux.

Quelqu'un at-il des informations sur ce problème?

Merci

Répondre

3

Ceci est un problème courant; Dans les cercles de traitement des données, on parle de «déchets dans les poubelles». Essentiellement, vous vous heurtez au fait que les données fournies sont de mauvaise qualité; Vous avez raison de reconnaître que le problème est qu'il sera difficile (voire impossible) d'utiliser ces données pour extraire toute information utile.

Dans une certaine mesure, il s'agit d'un problème qui doit être résolu à la source; Quelle que soit la source de vos données, ils doivent être convaincus que la qualité des données doit s'améliorer. À court terme, vous pouvez désinfecter vos données; le terme fait référence à la suppression ou au nettoyage des mauvaises entrées pour que le reste des données (les "bonnes" données) soit importable dans votre base de données. En fonction du pourcentage de vos données incorrectes, vous pouvez ou ne pouvez pas faire des choses utiles avec les données désinfectées une fois que vous les avez importées.À un certain point, étant donné que la qualité des données n'est pas prise en compte par la direction, vous devrez simplement leur montrer que le système ne fonctionne pas comme prévu, car la qualité des données est mauvaise. Ils auront besoin d'améliorer leurs processus à ce moment-là pour améliorer la qualité des données que vous obtenez à ce moment-là. Jusque-là, cependant, continuez à presser pour de meilleures données; étudiez le processus d'assainissement des données et voyez ce que vous pouvez faire avec les données restantes. Bonne chance!

+2

C'est une pratique commune et de longue date en informatique de produire ce que nous appelions un «rapport d'édition» indiquant quelles données ont échoué à la validation. Assurez-vous de préciser à la direction quelles sont les données incorrectes, puis assurez-vous de ne pas utiliser les mauvaises données. Si vous pouvez également enregistrer un fichier contenant uniquement les données incorrectes, et peut-être le joindre à un e-mail envoyé à Management, cela peut vous aider. –

+1

Très bon point; le rapport d'édition est une bonne idée de communiquer à la direction à quel point les données sont réellement ... –

+0

Merci pour les réponses, bon usage des mots-clés pour m'aider. Je pense que mon problème souffrira également du fait que les sources de données sont aléatoires avec leurs valeurs invalides. Je suis allé aux étapes d'ajouter dans des tables pour des valeurs non valides où chaque article dans la table a une relation à la table valide. Puis a écrit une macro pour que les valeurs invalides soient remplacées par des valeurs correctes. Ceci est un processus manuel et devient difficile quand ils n'ont pas de cohérence avec ce qui se passe incorrectement chaque mois. – Pricey

Questions connexes