2017-03-07 1 views
0

J'essaie d'optimiser les performances d'un travail DSX lent.Le serveur d'historique Spark n'affiche pas les applications 'complètes'

J'ai navigué vers le serveur d'historique d'étincelles à partir du service d'étincelle sous-jacent sur Bluemix (selon ce question).

J'ai exécuté une cellule contenant un code d'allumage de base:

In [1]: 
x = sc.parallelize(range(1, 1000000)) 
x.collect() 

Out[1]: 
[1, 
2, 
3, 
4, 
5, 
... 

Je puis rafraîchi la page Historique Job Server dans le navigateur, cependant, le serveur de l'histoire d'allumage ne montre pas toutes les applications complètes:

enter image description here

Comment puis-je trouver les applications 'complètes'?


Mise à jour

Le service étincelle dont je parle est le service d'allumage géré d'IBM sur Bluemix donc je n'ai aucun contrôle sur la configuration.

Mise à jour 2

Il semble que les dates sont été corrompus qui est pourquoi je ne vois pas les travaux terminés:

enter image description here

Répondre

0

Je l'ai abordé avec l'équipe d'ingénierie de service d'étincelle - c'est un problème connu.

0

Avez-vous configuré votre cluster d'étincelle pour avoir événement bûche? Comme ceci:

spark.eventLog.enabled true 
spark.eventLog.dir hdfs://namenode/shared/spark-logs 
1

Le contexte de l'ordinateur portable démarre une application Spark, qui continuera à fonctionner pendant 20 minutes après la fin de votre travail. Lorsque vous soumettez un autre travail pendant cette période, il utilise la même application et apparaît dans la même entrée d'historique. Par conséquent, vous ne pouvez pas effectuer le suivi de l'achèvement du travail/de l'activité des blocs-notes ou des noyaux de l'API interactive dans le serveur d'historique. L'activité Spark génère une sortie dans le journal du noyau, peut-être que cela peut fournir les informations que vous recherchez.

+0

Merci @Roland. J'ai vraiment besoin du serveur d'historique pour pouvoir déboguer des tâches qui ne sont pas performantes. Je viens de vérifier (4 heures plus tard) et le serveur d'historique ne montre toujours pas d'applications complètes. Est-il possible de forcer le rinçage dans le journal de sorte que je n'ai pas à attendre 20 minutes avant de pouvoir commencer à évaluer mon travail? –

+0

Désolé, je ne connais pas cette partie de l'infrastructure Spark. C'est la gestion des ressources SparkEGO. Lorsque vous redémarrez les noyaux, il se peut que vous n'obteniez pas du tout une entrée d'achèvement dans le serveur d'historique. –

+0

Np - upvoting car la réponse sera utile pour les autres utilisateurs. Cependant, il semble que mon journal d'historique des tâches soit corrompu. J'ai mis à jour la question pour refléter cela. –