Désolé, ne peut pas commenter. Ce n'est pas une réponse, mais quelques réflexions sur le problème. J'ai également rencontré un problème similaire, mais en testant la configuration locale avec un nœud Cassandra. La requête la plus simple à la table à 10 lignes
cqlsh:db> SELECT * FROM table;
prend moins d'une seconde dans le shell CQL.
Mais chez les requins cela prend environ 10 secondes.
shark> USE db; SELECT * FROM table;
...
Time taken: 11.274 seconds
Il est bin/shark-withinfo
exécutable dir requin, qui donne des informations à la demande. Peut-être que cela éclairera votre cas. Dans mon cas, il est dit qu'une énorme quantité de tâches est faite pour traiter ma demande. Donc, je devine que le boulanger mange la plupart du temps, mais je ne suis pas tout à fait sûr
...
14/07/09 17:35:19 INFO scheduler.TaskSetManager: Starting task 0.0:255 as TID 255 on executor localhost: localhost (PROCESS_LOCAL)
14/07/09 17:35:19 INFO scheduler.TaskSetManager: Serialized task 0.0:255 as 5456 bytes in 0 ms
14/07/09 17:35:19 INFO executor.Executor: Running task ID 255
14/07/09 17:35:19 INFO scheduler.TaskSetManager: Finished TID 254 in 30 ms on localhost (progress: 255/257)
14/07/09 17:35:19 INFO scheduler.DAGScheduler: Completed ResultTask(0, 254)
14/07/09 17:35:19 INFO storage.BlockManager: Found block broadcast_0 locally
14/07/09 17:35:19 INFO rdd.HadoopRDD: Input split: localhost 9160 org.apache.cassandra.dht.Murmur3Partitioner
14/07/09 17:35:19 INFO cql.HiveCqlInputFormat: Validators : null
14/07/09 17:35:19 INFO exec.FileSinkOperator: Initializing Self 260 FS
14/07/09 17:35:19 INFO exec.FileSinkOperator: Operator 260 FS initialized
14/07/09 17:35:19 INFO exec.FileSinkOperator: Initialization Done 260 FS
14/07/09 17:35:19 INFO exec.FileSinkOperator: Final Path: FS file:...
14/07/09 17:35:19 INFO exec.FileSinkOperator: Writing to temp file: ...
14/07/09 17:35:19 INFO exec.FileSinkOperator: New Final Path: ...
14/07/09 17:35:19 INFO executor.Executor: Serialized size of result for 255 is 563
14/07/09 17:35:19 INFO executor.Executor: Sending result for 255 directly to driver
14/07/09 17:35:19 INFO executor.Executor: Finished task ID 255
...
Savez-vous où le temps est passé? Est-ce Spark/Shark ou Cassandra? –
Merci pour votre réponse. Non je ne sais pas exactement car il y a beaucoup de composants impliqués (Cassandra, étincelle, requin). – Tharanga
En général, si vous avez un problème de performances, vous devez en déterminer la source. Exécuter 'top'? Essayez 'visualvm'? Ou espérons que quelqu'un sur Stack Overflow est clairvoyant :). –