Je cours Spark sur Amazon EMR dont le DNS public est, disons, 23.21.40.15
.Apache Spark accéder aux données dans hdfs via le cluster croisé
Maintenant j'exécute mon Spark Jar sur ce cluster & Je veux écrire la sortie de mon travail Spark à d'autres Amazon EMR HDFS dont le DNS public est 29.45.56.72
.
Je peux accéder à mon propre cluster HDFS, c'est-à-dire 23.21.40.15
, mais je ne suis pas en mesure d'écrire sur le cluster 29.45.56.72
.
- Que dois-je faire pour que mon travail d'étincelle puisse accéder au cluster croisé HDFS ??
- Si possible, quelqu'un peut-il partager un exemple de code pour cela?
Pouvez-vous écrire sur le premier cluster, puis utiliser distCp pour déplacer la sortie vers le deuxième cluster? –
C'est un moyen qui est indirectement je suppose .... mais que se passe-t-il si ma destination est le deuxième groupe? Je veux dire si je veux l'écrire en hdfs du second cluster du 1er cluster? – Akki