2016-06-16 2 views
0

L'insertion de données dans la table U-SQL prend trop de temps. Nous utilisons des tables partitionnées pour recalculer les données précédemment traitées. L'insertion pour la première fois a pris presque 10-12 minutes sur trois tables avec 11, 5 et 1 partitions et le parallélisme a été mis à 10. La deuxième insertion de mêmes données a pris presque 4 heures. Actuellement, nous utilisons des partitions basées sur l'année. Nous avons testé l'insertion et l'interrogation sans ajouter de partitions et les performances étaient bien meilleures. Est-ce un problème avec les tables partitionnées?L'insertion de données dans des tables U-SQL prend trop de temps?

Répondre

0

Il est très étrange que le même travail prendrait beaucoup plus de temps pour les mêmes données et le script exécuté avec le même degré de parallélisme. Si vous regardez le graphique du travail (ou les informations d'exécution de vertex) à partir de VisualStudio, pouvez-vous voir où l'heure était passée? Notez que les partitions (à granularité grossière) sont davantage une fonctionnalité de gestion du cycle de vie des données qui vous permet d'adresser des partitions individuelles d'une table et pas nécessairement une fonctionnalité de performance (bien que l'élimination des partitions puisse aider à améliorer les performances). Mais il ne devrait pas aller de minutes en heures avec le même script, les mêmes ressources et les mêmes données.