2016-08-19 4 views
0

Je cours un cahier de sql sur des databricks. Je voudrais analyser une table avec un demi-milliard d'enregistrements. Je peux exécuter des requêtes SQL simples sur les données. Cependant, j'ai besoin de changer le type de colonne de date de str à ce jour.Comment convertir la table sql en une structure de données pyspark/python et revenir à sql dans le bloc-notes databricks

Malheureusement, les instructions update/alter ne semblent pas être prises en charge par sparkSQL, il semble donc que je ne puisse pas modifier les données de la table.

Quelle serait la ligne de code qui me permettrait de convertir la table SQL en une structure de données python (dans pyspark) dans la cellule suivante? Ensuite, je pourrais modifier le fichier et le renvoyer à SQL.

+0

Salut, ma question a été downvoted sans aucun commentaire. Puis-je demander des commentaires? De cette façon, je peux améliorer la question et obtenir l'aide dont j'ai besoin? – Semihcan

Répondre

3
dataFrame = sqlContext.sql('select * from myTable') 
+0

Merci! Et comment pourrais-je le renvoyer à SQL afin que je puisse revenir à l'interroger dans sql dans la cellule suivante? Probablement aussi une ligne. Est-ce que c'est quelque chose comme 'dataFrame.to_sql' (Je n'ai aucune idée, je l'ai inventé pour vous donner une idée de ce que je veux dire) – Semihcan

+0

J'apprécierais toute aide! Merci! – Semihcan

+0

@Semihcan, vous voulez la fonction registerTempTable http://spark.apache.org/docs/latest/sql-programming-guide.html#running-sql-queries-programmatically – David