Je viens de créer un cluster d'étincelles à 7 nœuds, chaque travailleur disposant de 8 Go de mémoire et de 4 cœurs. Ce n'est pas un énorme cluster, mais échoue avec "limite de surcharge de GC dépassé" pour seulement 10 Go de données pour un terasort simple.Databricks fournit-il des paramètres d'étincelles recommandés pour un cluster et un ensemble de données donnés?
Je veux savoir comment je décide de ces paramètres de base pour un cluster spark de sorte que le travail n'échoue pas à mesure que la taille des données augmente.
- num de exécuteurs
- num de partitions
- parallélisme
- noyaux exécuteur
- exécuteur testamentaire de mémoire
Je ne me dérange travail en cours d'exécution lent si pas configuré correctement, mais les processus mourir à cause du manque de mémoire est un grand drapeau rouge.