J'ai récemment commencé à utiliser SparkR et j'aimerais effectuer une analyse de corrélation avec . Je suis en mesure de télécharger du contenu en tant que SparkR dataframe mais il ne permet pas d'exécuter l'analyse simple cor() avec la trame de données. (Obtention d'une erreur S4 ci-dessous):Exécution de corrélations dans SparkR: aucune méthode pour contraindre cette classe S4 à un vecteur
usr/local/src/spark/spark-1.5.1/bin/sparkR --packages com.databricks:spark-csv_2.10:1.0.3
library(SparkR)
setwd('/DATA/')
Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.2.0" "sparkr-shell"')
sqlContext <- sparkRSQL.init(sc)
df <- read.df(sqlContext, "/DATA/GSE45291/GSE45291.csv", source = "com.databricks.spark.csv", inferSchema = "true")
results <- cor(as.data.matrix(df), type="pearson")
data.matrix (df) Erreur dans as.vector (données): aucune méthode pour contraindre cette classe S4 à un vecteur
N'existe-t-il pas de fonction de corrélation intégrée pour SparkR? Comment puis-je corriger l'objet S4 pour qu'il fonctionne dans R, où je peux effectuer des fonctions de base? Toutes les suggestions ont été appréciées. Merci -Rich
Si vous pouvez publier la sortie de 'str (df)', il pourrait y avoir de l'espoir de comprendre quelles parties de cet objet pourraient convenir à la coercition d'une matrice. –
@ 42- La réponse courte est aucune. Le cadre de données Spark est principalement un wrapper fin autour de l'objet Java qui contient seulement une recette comment créer/transformer un ensemble de données et non une donnée elle-même. Sauf si des données sont collectées, il n'y a rien à utiliser ici. – zero323
> str (df) classe formelle 'dataframe' [paquet "SparkR"] avec 2 slots .. @ env: .. @ sdf: s jobj 'classe –
greener