J'essaie d'optimiser les performances d'un travail DSX lent.Le serveur d'historique Spark n'affiche pas les applications 'complètes'
J'ai navigué vers le serveur d'historique d'étincelles à partir du service d'étincelle sous-jacent sur Bluemix (selon ce question).
J'ai exécuté une cellule contenant un code d'allumage de base:
In [1]:
x = sc.parallelize(range(1, 1000000))
x.collect()
Out[1]:
[1,
2,
3,
4,
5,
...
Je puis rafraîchi la page Historique Job Server dans le navigateur, cependant, le serveur de l'histoire d'allumage ne montre pas toutes les applications complètes:
Comment puis-je trouver les applications 'complètes'?
Mise à jour
Le service étincelle dont je parle est le service d'allumage géré d'IBM sur Bluemix donc je n'ai aucun contrôle sur la configuration.
Mise à jour 2
Il semble que les dates sont été corrompus qui est pourquoi je ne vois pas les travaux terminés:
Merci @Roland. J'ai vraiment besoin du serveur d'historique pour pouvoir déboguer des tâches qui ne sont pas performantes. Je viens de vérifier (4 heures plus tard) et le serveur d'historique ne montre toujours pas d'applications complètes. Est-il possible de forcer le rinçage dans le journal de sorte que je n'ai pas à attendre 20 minutes avant de pouvoir commencer à évaluer mon travail? –
Désolé, je ne connais pas cette partie de l'infrastructure Spark. C'est la gestion des ressources SparkEGO. Lorsque vous redémarrez les noyaux, il se peut que vous n'obteniez pas du tout une entrée d'achèvement dans le serveur d'historique. –
Np - upvoting car la réponse sera utile pour les autres utilisateurs. Cependant, il semble que mon journal d'historique des tâches soit corrompu. J'ai mis à jour la question pour refléter cela. –