Nous avons un cluster MapR avec Spark version 2.0 Nous essayons de mesurer la différence de performance d'une requête Hive qui est actuellement en cours d'exécution sur le moteur TEZ, puis en l'exécutant sur Spark-sql juste en écrivant le Requête sql dans le fichier .hql, puis appel via le fichier shell.Spark Dataset ou Dataframe pour l'agrégation
Requête contient beaucoup de Join qui va certainement créer plusieurs étapes et remaniement va se passer dans ce scénario ce qui serait le choix le plus optimal.
Est-il vrai que dans Spark est datasets plus lent que Dataframes pour effectuer agrégations comme groupBy, max, min, count..etc ..
Ainsi, dans ce que tous les domaines Dataframes de meilleures performances que datasets et vice versa .. ?
Cela signifie-t datasets Spark & dataframe sont très similaires dans la performance dans tous les aspects ..? – AJm
@Aijaz oui Dataset = Dataframe + type sécurité –