Il est clair et bien documenté que la possibilité de fractionner les fichiers zip a un impact important sur les performances et la parallélisation des tâches dans Hadoop.Impact du codec de compression dans Azure Data Lake
Cependant Azure est basé sur Hadoop et il n'y a aucune mention de cet impact n'importe où je peux trouver dans la documentation de Microsoft.
N'est-ce pas un problème pour ADL? Est-ce que, par exemple, GZipper de gros fichiers est une approche acceptable maintenant ou vais-je rencontrer les mêmes problèmes d'incapacité de paralléliser mes travaux en raison du choix du codec de compression?
Merci
C'est génial. Merci beaucoup. Est-ce que ADLA est construit entièrement en interne? – Blootac
Principalement. Le moteur d'extension est basé sur Microsoft Dryad, le gestionnaire de ressources actuel est basé sur YARN (et notre équipe est l'un des principaux contributeurs à YARN). –