Connecteur HDFS-GPFS à utiliser dans Apache Spark

Existe-t-il une possibilité de lire des données à partir d'IBM GPFS (Global Parallel Filesystem) dans Apache Spark?Connecteur HDFS-GPFS à utiliser dans Apache Spark

Mon intention est d'utiliser quelque chose comme ça

sc.textFile("gfps://...")

au lieu de

sc.textFile("hdfs://...")

L'environnement qui est destiné à être utilisé est la plate-forme de données Hortonworks. J'ai lu quelque articles, deploying IBM Spectrum Scale File System qui dit que vous pouvez configurer sur HDP, un connecteur à GPFS qui vous donnera la possibilité de lire/écrire sur GPFS (peut-être quelque chose que le MAPR-FS a pour son système de fichiers). Est-ce que quelqu'un a fait ça?

Merci

Source

2017-10-20 dumitru

vous pouvez utiliser gpfs sous forme de fichier de fichiers local ': ///" 'ou vous pouvez passer le point de montage direct, sans' hdfs: // ou 'gpfs: //' dans notre plate-forme nous utilisons par exemple 'BINS/FILESOURCE' directement –

@dumitru Vous pouvez utiliser la bibliothèque Sparkling.data.

Plus de détails - http://datascience.ibm.com/blog/making-data-useful-with-the-sparkling-data-library-2/

Source

2017-11-06 18:04:01 user3294904

Connecteur HDFS-GPFS à utiliser dans Apache Spark

Répondre

Questions connexes