-1

Je compare la précision pour la classification de texte obtenue en utilisant sklearn DT et Spark ML DT avec les mêmes caractéristiques et ensemble de données. Est-il approprié de les comparer? La raison étant, la liste des paramètres est différente pour les deux, donc je pense que les résultats seront différents et je ne suis pas sûr sur quelle base nous pouvons les comparer? Lequel devrait améliorer la précision et les performances dans les paramètres par défaut? Je sais que cela dépend du cas d'utilisation du cas d'utilisation, mais pouvons-nous généraliser au moins pour le même cas d'utilisation?Comment peut-on comparer la performance de l'algorithme des arbres de décision en termes de précision de scikit-learn et de Spark ML?

Répondre

0

Vous pouvez comparer deux algorithmes, avec différents hyperparamètres. mais la mesure de précision (la métrique de comparaison) doit être exactement la même. Par exemple, vous pouvez utiliser la métrique AUC (area under the curve), à ​​la fois pour Sickit et Mlib. Notez que les jeux de données et les fonctionnalités doivent également être identiques.

https://spark.apache.org/docs/2.1.0/mllib-evaluation-metrics.html

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html

+0

Ce qui me préoccupe est, les paramètres par défaut pour Spark ML et sklearn sont différents. Par exemple, la profondeur maximum est None pour sklearn et 5 pour Spark ML. Cela modifiera le score de précision même si l'ensemble de données et les caractéristiques sont identiques. Alors, comment pouvez-vous comparer la précision finale obtenue si les valeurs par défaut pour les paramètres et les paramètres lui-même sont différents? Ou est-ce comme si nous ne pouvions pas le comparer? – Alvin

+0

@Alvin, Il est comparable, Connaissez-vous Grid Search? Il existe dans Spark, également Sickit, Essayez d'optimiser les paramètres avec Grid Search et ensuite comparer ensemble. – Masoud