J'ai un jeu de données qui est chargé de cassandra dans l'étincelle. Après avoir chargé cet ensemble de données, je vais supprimer certains éléments de cassandra, mais je veux que mon ensemble de données soit le premier pour le prochain calcul. J'ai utilisé persist(DISK_ONLY)
pour le résoudre, mais il semble au mieux. Comment puis-je forcer une étincelle pour éviter le recalcul?Comment forcer une étincelle pour éviter le recalcul du jeu de données?
exemple:
val dataset:Dataset[Int] = ??? // something from cassandra
dataset.persist(StorageLevel.DISK_ONLY) // it's best effort
dataset.count // = 2n
dataset.persist(_ % 2 == 0).remove // remove from cassandra
data.count // = n => I need orginal dataset here
@mrsrinivas cache d'allumage et la persistance est ainsi d'optimisation. Il n'y a aucune garantie sur eux. –
Je suis d'accord, je n'ai jamais mentionné nulle part que DAG sautera cette étape de l'exécution. Mais ** RDD ne sera pas recalculé chaque fois que l'action appelée si rdd persiste ** à tout moment. – mrsrinivas