J'essaye de construire une couche de services de données en utilisant Cassandra comme le magasin principal. Je suis nouveau à Cassandra et je ne sais pas quel client utiliser pour cassandra - thrift ou cql 3? Nous avons beaucoup de travaux mapreduce en utilisant Amazon elastic mapreduce (EMR) qui va lire/écrire les données de cassandra à haut volume. Le volume total de données sera de> 100 To avec des milliards de lignes à Cassandra. Les tâches mapreduce peuvent être lues ou écrire lourdement avec des qps élevés (> 1000 qps). Les exigences sont les suivantes:Quel client cassandra utiliser pour l'intégration de haoop?
- Simplicité du code client. Il semble que Thrift ait une intégration intégrée avec Hadoop pour le chargement de données en masse à l'aide de sstableloader (http://www.datastax.com/dev/blog/bulk-loading).
- Possibilité de définir de nouvelles colonnes lors de l'exécution. Nous pourrions avoir besoin d'ajouter plus de colonnes en fonction des besoins de l'application. Il semble que cql3 n'autorise pas la définition dynamique des colonnes lors de l'exécution.
- Performances de lecture/écriture en masse. Je ne sais pas quel client est le meilleur. Cependant, je trouve ce poste qui prétend client Thrift a de meilleures performances pour un volume élevé de données: http://jira.pentaho.com/browse/PDI-7610?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
Je ne pouvais trouver aucune source d'information qui répond à cette question. Appréciez si vous pourriez aider avec ceci puisque je suis sûr que ceci est un problème commun pour la plupart des gens et bénéficierait la communauté globale.
Merci beaucoup à l'avance.
-Prateek
d'abord Thrift oublier, son API de base de Cassandre, essayez quelques API wrapper de, simple code. (Pilote CQL natif, Astyanax, Hector, Pélops). Tous sont basés sur Java – abhi