J'essaie de convertir les tables du serveur sql au format .csv via le code ci-dessous dans pyspark.Argument CLI avec spark-submit lors de l'exécution du fichier python
from pyspark import SparkContext
sc = SparkContext("local", "Simple App")
from pyspark.sql import SQLContext, Row
sqlContext = SQLContext(sc)
df = sqlContext.read.format("jdbc").option("url","jdbc:sqlserver://server:port").option("databaseName","database").option("driver","com.microsoft.sqlserver.jdbc.SQLServerDriver").option("dbtable","table").option("user","uid").option("password","pwd").load()
df.registerTempTable("test")
df.write.format("com.databricks.spark.csv").save("full_path")
donc, si je veux convertir plusieurs tables, je dois écrire plusieurs données Frames.So, pour l'éviter, je voulais prendre argument de ligne de commande pour le nom de la base de données et le nom de la table des utilisateurs pendant l'itération sur la trame de données via la boucle for.
Est-ce encore possible? Si oui, quelqu'un peut-il me guider sur la façon de le faire grâce à spark-submit?
passe à la fin de votre formation d'étincelles Soumettre la commande et la lire en utilisant 'sys.argv'? – philantrovert