2017-09-29 6 views
0

Donc, un peu d'une question générale. Je travaille comme analyste de données pour une startup. Mon processus principal consiste à prendre les données client existantes d'un client et à les nettoyer/normaliser pour les intégrer dans notre plate-forme une fois dans le cadre de notre processus d'intégration. Un membre de notre équipe exporte ses données à partir de son système de transition ou, s'il les conserve à l'interne, nous recevons son journal Excel utilisé pour le suivre. Il est toujours dans un format différent et nécessite un nettoyage approfondi (avg 1 min/record). Nous prenons généralement une grande table (format .xlxs), et après le nettoyage, nous la divisons en quatre fichiers .csv; que nous chargeons comme quatre tables sur notre plate-forme. J'ai l'impression d'avoir très bien optimisé le processus en termes d'étapes de processus et de nettoyage avec les fonctions Excel (si, concat, texte-vers-colonnes, etc ...). J'ai des compétences débutant-intermédiaire en VBA et en SQL et je viens de gratter la surface dans R; Ce qui est frustrant, c'est que je sais qu'il est possible d'automatiser ce processus, mais je ne sais pas par où commencer. Si quelqu'un a de l'expérience avec quelque chose comme ceci, du code, un lien vers un article/un autre fil, ou juste une direction générale serait très apprécié. S'il vous plaît demander des éclaircissements là où vous le jugez nécessaire. Merci.Automatisation du nettoyage des données d'exportation brutes pour l'intégration des clients - Le format est toujours différent

+1

Si les données changent constamment de format, la première étape de l'automatisation est d'expliquer au client comment il peut réduire ses coûts (et donc ce que vous les chargez) en changeant de format tout le temps. . Jusqu'à ce qu'ils vous donnent des données cohérentes, vous aurez toujours beaucoup de travail manuel à faire. – YowE3K

+0

Identifiez une étape ou un processus spécifique spécifique, généralisez-le pour couvrir quelques sous-types de ce processus, puis essayez de coder une chose. Revenez avec votre code si vous rencontrez des problèmes et les gens vont probablement aider. Il est difficile d'être plus précis que ça, ne sachant pas ce que vous êtes en train de faire. –

Répondre

0

Ce sera vraiment difficile à faire dans Excel. Si vous avez le temps, vous pouvez essayer Optimus, une bibliothèque de nettoyage des données écrite en Python et Pyspark (vous n'avez pas besoin de connaître l'étincelle). Voici la page Web https://hioptimus.com.

Vous pouvez créer des Pipelines de données avec lui, et je vous recommande de le faire, essayez de généraliser vos processus et de demander au client plus de structure pour transmettre les données.

La bonne chose est que vous n'avez pas besoin de Big Data pour faire fonctionner Optimus, peu si vous l'avez un jour, le même code fonctionnera.

Vérifiez la documentation pour plus:

http://optimus-ironmussa.readthedocs.io/en/latest/

Permettez-moi de savoir si vous avez des doutes!