2017-02-22 2 views
2

Je ne veux pas utiliser l'ADL et ADLA comme une boîte noire. J'ai besoin de comprendre comment les engrenages tournent sous le capot pour l'utiliser de manière efficace.Puis-je avoir des livres sur Azure Data Lake Internals?

Où je peux trouver une information qui décrivent internals:

  1. comment requête U-SQL est traitée
  2. comment le parallélisme est travaillé
  3. comment le stockage est organisé en ADL à bas niveau
  4. comment Le stockage de la base de données est organisé en ADL à un niveau bas (c'est-à-dire magasin en ligne ou magasin de colonnes)
  5. comment le partitionnement est organisé
  6. etc

Il existe de nombreux livres et whitepappers qui décrivent les composants internes du moteur RDBMS. Existe-t-il pour ADL/ADLA?

Il y a beaucoup de gars qui travaillent dans Azure. Pourriez-vous publier des brouillons/whitepappers à utiliser tel quel (de manière non-officielle).

Répondre

4

Certaines de ces informations sont disponibles dans les présentations que nous avons données. Par exemple, vous pouvez trouver certaines de ces présentations sur mon compte slideshare au: http://www.slideshare.net/MichaelRys.

Pour répondre à certaines de vos questions ci-dessus:

La version actuelle des index en cluster tables U-SQL sont stockées dans votre dossier de catalogue structuré comme on appelle les fichiers de flux structurés. Il s'agit de fichiers compressés et réduits qui utilisent une structure orientée ligne avec des métadonnées et des statistiques autonomes (des statistiques plus détaillées peuvent être créées). La construction de table fournit un partitionnement à 2 niveaux: des partitions adressables et des schémas de distribution internes (HASH, RANGE, etc.). Les deux aident avec la parallélisation, bien que les schémas de distribution soient plus pour la performance tandis que la partition plus pour la gestion du cycle de vie des données. Il n'y a pas de limite sur eux, bien que le sweet spot soit de 1 Go à 4 Go par seau de distribution.

1 AU est essentiellement 1 conteneur. Et ADLS n'est pas architecturellement HDFS mais offre l'API WebHDFS pour la compatibilité.

+0

big thanx encore une fois pour une explication géniale! – churupaha

+0

semble que l'équipe ADL va implémenter des index secondaires et un support de magasin de colonnes? Je l'ai lu dans la présentation https://www.slideshare.net/mobile/MichaelRys/tuning-and-optimizing-usql-queries-sqlpass-2016 Savez-vous quand ils prévoient de le mettre en œuvre? – churupaha

+0

C'est la feuille de route future et nous n'avons actuellement pas d'ATE pour ces articles. –

1

Ceci est une question assez vaste. Je suppose que vous avez commencé avec la documentation existante sur ADLA et U-SQL? https://docs.microsoft.com/en-us/azure/data-lake-analytics/ https://msdn.microsoft.com/library/azure/mt591959

ADLA GA'd en Novembre 2016, par rapport à SQL Server en 1987 - qui est une comparaison des pommes et des oranges très.

Peut-être que nous pouvons commencer avec vos questions spécifiques?

+0

Oui, le serveur SQL est très mature. Mais il y a beaucoup de nouveaux festures. Et nous pouvons lire des explications approfondies de la part des techniciens sur la façon dont ces fonctionnalités sont intégrées avant que ces fonctionnalités soient publiées. Ok, commençons par une question concrète. Pouvez-vous expliquer, quelle est la table u-sql? Est-ce que rowstore ou columnstore? Qu'est-ce que la partition de tous les points de vue (parallelizm, filtrage, gérabilité, etc). Qu'est-ce que la distribution? Est-ce la même chose que dans le cas d'Azure DWH? Comment le partitionnement et la distribution affectent parallelizm. Quelle peut être la taille de la table/partition/distribution? – churupaha

+0

Qu'en est-il des distributions asymétriques du point de vue du parallélisme? Qu'en est-il des statistiques sur les colonnes? Comment moteur usql choisir un plan d'exécution concret (je veux dire "graphique" avec des vertex) ... L'index clusterisé est-il le même que dans le serveur sql? – churupaha

+0

Est-ce une unité Analytics = YARN Container underhood? – churupaha