2014-07-11 1 views
0

J'ai une préoccupation qui pourrait être un bon sujet pour les archives, car j'imagine que beaucoup de gens pourraient rencontrer un problème similaire à un moment de leur carrière. Je suis à la recherche de toutes les suggestions, idées, commentaires concernant le mappage des données entre plusieurs fournisseurs dans un format standard.Cartographie des données financières de plusieurs fournisseurs pour correspondre aux formats internes et à la convention de dénomination

Mon histoire:

Actuellement, je reçois deux catégories différentes de données (AKA "Constant" et "variable"). contenant une pléthore d'informations financières [ie. prêts, taux, hypothèques, adresses, etc ...]. Chaque fournisseur a son propre style de format et ses propres conventions de nommage différentes de la mienne.

Ensemble 1) L'ensemble Constant: contient environ 25 fichiers CSV par jour provenant de différents fournisseurs. Chaque fournisseur a un nom différent (en-tête de colonne) pour leurs données, mais le format de leurs données est similaire au mien.

Ensemble 2) Ensemble de variables: contient environ 20 fichiers, bien que leurs formats et en-tête soient presque toujours uniques (par exemple, j'ai un ensemble de données appelé "Taux de prêt" et mes fournisseurs l'appellent "," rT "," PxrT ", etc.). Je dois donc parcourir chaque fichier, d'abord nettoyer la mise en forme des données (format de casse correct, analyser les noms dans différentes colonnes, convertir le format de date/heure, etc.) puis ré-étiqueter tout.

Ma méthode actuelle de nettoyage des données consiste à utiliser un «Modèle de téléchargement» dans Excel. Après avoir nettoyé la mise en forme de toutes les données, puis copiez les valeurs du fichier du fournisseur sur mon modèle. Ensuite, j'ai les données du modèle chargé dans un temp. table (Staging Table) sur le serveur SQL. Ceci est suivi par l'exécution de certains scripts SQL auxquels insérer les valeurs à l'emplacement approprié dans la base de données (DB).

Comme vous pouvez l'imaginer, l'ensemble du processus prend beaucoup de temps - continuer à le faire manuellement n'est plus vraiment une option.

à mes questions:

1) Avez-vous déjà fait quelque chose comme ça? Si oui, comment l'avez-vous fait?

2) Des idées pour modifier rapidement les noms de colonnes (en-têtes) en fonction d'une liste de noms dans une autre feuille?

3) Avez-vous des suggestions sur la façon d'améliorer le processus?

4) Connaissez-vous un logiciel capable d'automatiser ce processus?

Répondre

1

Trois lettres: E. T. L.

Hit Teh Googles, il existe plusieurs outils ETL qui sont libres. Vous ré-inventez la roue avec votre processus.

+0

Avais-je seulement connu. Merci. – user3610077

Questions connexes