2017-10-20 14 views
1

Existe-t-il une possibilité de lire des données à partir d'IBM GPFS (Global Parallel Filesystem) dans Apache Spark?Connecteur HDFS-GPFS à utiliser dans Apache Spark

Mon intention est d'utiliser quelque chose comme ça

sc.textFile("gfps://...") 

au lieu de

sc.textFile("hdfs://...") 

L'environnement qui est destiné à être utilisé est la plate-forme de données Hortonworks. J'ai lu quelque articles, deploying IBM Spectrum Scale File System qui dit que vous pouvez configurer sur HDP, un connecteur à GPFS qui vous donnera la possibilité de lire/écrire sur GPFS (peut-être quelque chose que le MAPR-FS a pour son système de fichiers). Est-ce que quelqu'un a fait ça?

Merci

+0

vous pouvez utiliser gpfs ​​sous forme de fichier de fichiers local ': ///" 'ou vous pouvez passer le point de montage direct, sans' hdfs: // ou 'gpfs: //' dans notre plate-forme nous utilisons par exemple 'BINS/FILESOURCE' directement –

Répondre