0

Nous avons un cluster MapR avec Spark version 2.0 Nous essayons de mesurer la différence de performance d'une requête Hive qui est actuellement en cours d'exécution sur le moteur TEZ, puis en l'exécutant sur Spark-sql juste en écrivant le Requête sql dans le fichier .hql, puis appel via le fichier shell.Spark Dataset ou Dataframe pour l'agrégation

Requête contient beaucoup de Join qui va certainement créer plusieurs étapes et remaniement va se passer dans ce scénario ce qui serait le choix le plus optimal.

Est-il vrai que dans Spark est datasets plus lent que Dataframes pour effectuer agrégations comme groupBy, max, min, count..etc ..

Ainsi, dans ce que tous les domaines Dataframes de meilleures performances que datasets et vice versa .. ?

Répondre