2017-03-16 1 views
1

Est-il possible d'utiliser U-SQL pour décompresser un dossier zip avec plusieurs fichiers .csv et les traiter?Possible d'utiliser le fichier .zip avec plusieurs fichiers .csv?

Chaque fichier a un schéma différent.

+0

Dans quel format sont vos fichiers zip? Il est bon de garder à l'esprit que 'EXTRACT' peut gérer nativement des fichiers gzip, aucune programmation supplémentaire n'est requise, comme cela [réponse récente] (http://stackoverflow.com/questions/42711229/how-to-preprocess-and-decompress- gz-fichier-sur-azure-data-lake-store/42718898 # 42718898). – wBob

Répondre

3

Vous avez donc deux problèmes ici.

  1. Extrait d'un fichier ZIP.
  2. Traiter avec des contenus à variation interne.

Pour répondre à votre question. Est-il possible? ... Oui.

Comment? ... Vous devez écrire un extracteur défini par l'utilisateur pour le faire.

d'abord consulter la page MSDN Extracteurs:

https://msdn.microsoft.com/en-us/library/azure/mt621320.aspx

La classe pour l'extracteur doit hériter de IExtractor avec des méthodes qui itérer sur le contenu de l'archive.

Ensuite, pour sortir chaque fichier interne, passez un nom de fichier à l'extracteur pour pouvoir définir les colonnes de chaque jeu de données.

Source: https://ryansimpson.net/2016/10/15/query-zipfile-adla/

Une autre option serait d'utiliser Azure données d'usine pour effectuer l'opération dans une activité UnZip personnalisée et la sortie du contenu CSV à ADL Store. Cela impliquerait un peu plus d'ingénierie et un service Azure Batch.

Espérons que cela aide.