lecture des données google seau dans l'étincelle

J'ai suivi ce blog pour lire les données stockées dans google bucket. https://cloud.google.com/dataproc/docs/connectors/install-storage-connector Cela a bien fonctionné. La commande suivantelecture des données google seau dans l'étincelle

hadoop fs -ls gs://the-bucket-you-want-to-list

m'a attendu results.But quand j'ai essayé de lire des données à l'aide pyspark à l'aide

rdd = sc.textFile("gs://crawl_tld_bucket/"),

il jette l'erreur suivante:

py4j.protocol.Py4JJavaError: An error occurred while calling o20.partitions. 
: java.io.IOException: No FileSystem for scheme: gs 
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660) 
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667) 
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94) 
`

Comment l'obtenir?

Source

2017-09-12 Ravi Ranjan

Pour accéder à Google Cloud Storage vous devez inclure connecteur Cloud Storage:

spark-submit --jars /path/to/gcs/gcs-connector-latest-hadoop2.jar your-pyspark-script.py

pyspark --jars /path/to/gcs/gcs-connector-latest-hadoop2.jar

Source

2017-09-12 13:15:40 user8371915

lecture des données google seau dans l'étincelle

Répondre

Questions connexes