j'ai « fichiers téléchargés » N à partir d'un certain répertoire dans un seul RDDSpark: Tri RDD à partir de plusieurs fichiers sans utiliser de recueillir
val data = sc.textFile("file:///myPath/*.txt")
Par exemple mes 2 fichiers contiennent 5 lignes chacune.
Fichier 1
A
B
C
D
E
Fichier 2
F
G
H
I
J
Si j'ajoute un sortBy à mon code:
val sortedData = data.sortBy(x => x)
Je ne reçois pas mes données triées, mais juste un hasard RDD:
J
B
C
E
A
D
G
F
H
I
Collect pourrait me aider, mais
1) ce n'est pas idéal pour les grands RDD
2) au lieu d'un RDD, elle retourne un tableau (que je devrais re-paralléliser)
Merci à avancer
FF
Cela devrait fonctionner comme ça. Comment vérifiez-vous les résultats de la sorte? – maasg
"Impression" mon résultat ... sortedData.foreach (println) –
sortedData.foreach (println) n'imprimera rien! – eliasah