Apache Spark accéder aux données dans hdfs via le cluster croisé

Je cours Spark sur Amazon EMR dont le DNS public est, disons, 23.21.40.15.Apache Spark accéder aux données dans hdfs via le cluster croisé

Maintenant j'exécute mon Spark Jar sur ce cluster & Je veux écrire la sortie de mon travail Spark à d'autres Amazon EMR HDFS dont le DNS public est 29.45.56.72.

Je peux accéder à mon propre cluster HDFS, c'est-à-dire 23.21.40.15, mais je ne suis pas en mesure d'écrire sur le cluster 29.45.56.72.

Que dois-je faire pour que mon travail d'étincelle puisse accéder au cluster croisé HDFS ??
Si possible, quelqu'un peut-il partager un exemple de code pour cela?

Source

2016-07-04 Akki

Pouvez-vous écrire sur le premier cluster, puis utiliser distCp pour déplacer la sortie vers le deuxième cluster? –

C'est un moyen qui est indirectement je suppose .... mais que se passe-t-il si ma destination est le deuxième groupe? Je veux dire si je veux l'écrire en hdfs du second cluster du 1er cluster? – Akki

Lorsque vous définissez la sortie dir dans votre travail d'étincelle, vous pouvez définir les informations d'identification pour y accéder comme ceci:

hdfs://username:[email protected]:port/pathToFolder

PD: vous ne devriez pas écrire les adresses IP de votre cluster dans une question publique ;)

Source

2016-07-04 13:27:51 Marco

J'ai écrit les adresses IP juste pour l'échantillon ... ils ne sont pas de véritables adresses IP ... Toute autre façon au lieu de spécifier le nom d'utilisateur et mot de passe ?? comment puis-je le faire s'il y a 2 clusters Amazon EMR impliqués? – Akki

S'il s'agit des deux clusters EMR, vous pouvez configurer un rôle IAM pour autoriser l'accès EMR entre eux, bien qu'en théorie, il semble que cela soit déjà autorisé, mais vous devrez peut-être également exposer les ports du groupe de sécurité pour accéder entre les deux maîtres. – Kristian

Je l'ai ... J'ai créé mon 2ème cluster en N.California alors que mon 1er cluster était en N.Virginia ... Maintenant je peux accéder au hdfs ... Y at-il un moyen d'accéder à 2 clusters EMR s'ils sont cross- région ie 1 cluster est en N.Virginia et d'autres est en N.Californie ?? – Akki

Apache Spark accéder aux données dans hdfs via le cluster croisé

Répondre

Questions connexes