J'ai 1 maître et 3 esclaves (4 cœurs chacun)Quels sont les avantages d'augmenter la taille de la partition et de diminuer le nombre de partitions dans l'étincelle?
Par défaut, la taille de la partition min dans mon cluster spark est de 32 Mo et ma taille de fichier est de 41 Go. donc je suis en train de réduire le nombre de partitions en changeant la minsize à 64Mb
sc.hadoopConfiguration.setLong("mapreduce.input.fileinputformat.split.minsize", 64*1024*1024)
val data =sc.textFile("/home/ubuntu/BigDataSamples/Posts.xml",800)
data.partitions.size = 657
Quels sont les avantages de l'augmentation de la taille de la partition et en réduisant le nombre de partitions. Parce que lorsque mes partitions sont autour de 1314 cela a pris environ 2-3min appx et même après avoir réduit le nombre de partitions, il prend encore le même laps de temps.