Spark Dataset ou Dataframe pour l'agrégation

Nous avons un cluster MapR avec Spark version 2.0 Nous essayons de mesurer la différence de performance d'une requête Hive qui est actuellement en cours d'exécution sur le moteur TEZ, puis en l'exécutant sur Spark-sql juste en écrivant le Requête sql dans le fichier .hql, puis appel via le fichier shell.Spark Dataset ou Dataframe pour l'agrégation

Requête contient beaucoup de Join qui va certainement créer plusieurs étapes et remaniement va se passer dans ce scénario ce qui serait le choix le plus optimal.

Est-il vrai que dans Spark est datasets plus lent que Dataframes pour effectuer agrégations comme groupBy, max, min, count..etc ..

Ainsi, dans ce que tous les domaines Dataframes de meilleures performances que datasets et vice versa .. ?

Source

2017-10-17 AJm

Dans Spark 2.0, Dataset [Row] est un alias pour Dataframe, il ne devrait donc pas y avoir de problème de performance.

S'il vous plaît voir:

Source

2017-10-17 20:24:08

Cela signifie-t datasets Spark & dataframe sont très similaires dans la performance dans tous les aspects ..? – AJm

@Aijaz oui Dataset = Dataframe + type sécurité –

Spark Dataset ou Dataframe pour l'agrégation

Répondre

Questions connexes