J'essaie de lire un fichier CSV dans strudio avec le paquet sparklyr dans un cluster de calcul google. Ceci est la configuration:lire la fonction csv sparklyr erreur
cadre Spark Testinstall.packages("sparklyr")
install.packages("dplyr")
library(sparklyr)
spark_install(version = "1.6.2")
Sys.setenv(SPARK_HOME="/usr/lib/spark")
config <- spark_config()
sc <- spark_connect(master = "yarn-client", config=config ,version = "1.6.2")
Il y a une erreur indiquant « Invalid argument » juste après avoir collé la chaîne de chemin que je vais utiliser pour la fonction spark_read_csv. Et il continue à apparaître même si je ne clique pas sur le bouton de sauvegarde.
Une idée de pourquoi je reçois cette erreur? Fait intéressant, j'ai juste essayé la même configuration d'installation dans Amazon EMR et avait le même problème.
Merci pour la suggestion schristel, mais j'ai utilisé le format indiqué dans le guide spack_read_csv et j'ai toujours des erreurs. Dans le cas de google compute, j'ai transféré le fichier dans l'espace de travail rstudio et essayé avec "file: // home/ruser/filename" et "file: /// home/ruser/filename". –
D'accord, je ne peux pas aider à dépanner sans un exemple reproductible, mais bonne chance. Faites un suivi si vous trouvez la solution! – schristel
Merci Schristel. Voici comment j'ai configuré la commande: secondary_two_tbl <- spark_read_csv (sc, "SECONDARYtwo.csv", path = "fichier: /// home/ruser/sparkly-blog") –