2017-07-09 1 views

Répondre

0

augmenter le stockage des noeuds de données du cluster et faire le facteur de réplication = 0 espoir cela suffira votre réponse

+0

Cher Pankaj, Merci pour la réponse. Je suis d'accord avec l'ajout de nœuds, mais je pense que je ne peux pas changer le facteur de réplication car j'ai besoin d'avoir des copies des morceaux de fichiers. Merci encore. –

0

permet de faire des calculs de base

Chaque taille d'entrée de jour = 30000 TB . Facteur de réplication = 3. Pour l'exécution de MR ou Spark (pire des cas), facteur de stockage = 1

Vous avez donc besoin de 30000 * 4 To de stockage sur HDFS par jour.

laisse supposer que vous supprimez les données existantes tous les 30 jours, ce qui rend espace requis HDFS 30000 * 4 * 30 TB

pointeurs clés à garder à l'esprit.

  1. Essayez d'avoir atleast 30% de vos HDFS gratuits pour MapReduce et l'emploi d'allumage pour exécuter

  2. En fonction de votre format vidéo, utilisez une compression lib pour compresser les données et l'enregistrer sur HDFS. Les données non compressées sur HDFS ne sont pas très utiles et se traduisent par des E/S plus élevées pendant l'exécution MR, spark.