J'essaye de construire un classificateur de forêt aléatoire en utilisant la bibliothèque de pyspark.ml pour les données (pas mllib pour RDD). Dois-je utiliser pipeline comme indiqué dans la documentation? Je veux juste construire un modèle simple,Random Forest en utilisant pyspark.ml pour Dataframes
rf = RandomForestClassifier(labelCol = labs, featuresCol = rawdata)
Je cours dans l'erreur suivante
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/spark/python/pyspark/__init__.py", line 104, in wrapper
return func(self, **kwargs)
File "/usr/lib/spark/python/pyspark/ml/classification.py", line 910, in __init
__
self.setParams(**kwargs)
File "/usr/lib/spark/python/pyspark/__init__.py", line 104, in wrapper
return func(self, **kwargs)
File "/usr/lib/spark/python/pyspark/ml/classification.py", line 928, in setPar
ams
return self._set(**kwargs)
File "/usr/lib/spark/python/pyspark/ml/param/__init__.py", line 421, in _set
raise TypeError('Invalid param value given for param "%s". %s' % (p.name, e)
)
TypeError: Invalid param value given for param "labelCol". Could not convert <cl
ass 'pyspark.sql.dataframe.DataFrame'> to string type
Un échantillon de mes étiquettes
+---+
| _2|
+---+
|0.0|
|1.0|
|0.0|
|0.0|
|0.0|
|0.0|
|1.0|
|1.0|
|1.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|1.0|
|1.0|
+---+
Mes données est similaire avec 180 colonnes.
Vous ne * avez * à utiliser les pipelines. Pour plus d'aide, veuillez fournir un échantillon de vos données. – desertnaut
J'ai modifié le message. Merci. – Nivi