J'ai créé un RDD comme suit:Spark Checkpoint
scala> val x = List(1,2,3,4)
x: List[Int] = List(1, 2, 3, 4)
scala> val y = sc.parallelize(ls,2)
y: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10] at parallelize at <console>:29
scala> val z = y.map(c => c*2)
z: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[11] at map at <console>:31
scala> sc.setCheckpointDir("/tmp/chk")
scala> z.checkpoint
scala> z.count
res32: Long = 4
Ma question est de savoir comment lire les données à partir du répertoire checkpoint
Pourquoi voulez-vous faire cela? –
J'ai lu à plusieurs endroits que les données pointées peuvent être lues lorsque l'application est terminée. Donc juste créé au-dessus du code et check-point le "z". Il a créé un répertoire "chk" et un deuxième répertoire avec un grand nom après le z.count. Après ce gros répertoire, il créa un répertoire rdd-2 à l'intérieur duquel il y avait un fichier part-00000. Donc après cela, j'ai fermé la console scala et le rouvrir. Mais je n'étais pas capable de lire le RDD dans les données de la partie-0000. Donc, je veux savoir comment lire RDD à partir du fichier partie-00000. Je suis juste à la recherche – sraj