2011-01-20 4 views
3

Nous sommes actuellement confrontés à un problème de stockage et de récupération efficaces de données à partir de très gros volumes de données (en milliards). Nous avons utilisé mysql et avons optimisé le système, le système d'exploitation, le raid, les requêtes, les index, etc., et nous cherchons maintenant à passer à autre chose.Comment stocker et interroger des ensembles de données très volumineux (au-delà des DB relationnels)

J'ai besoin de prendre une décision éclairée sur la technologie à suivre pour résoudre nos problèmes de données. J'ai étudié la carte/réduire avec HDFS, mais j'ai aussi entendu de bonnes choses à propos de HBase. Je ne peux pas m'empêcher de penser qu'il existe d'autres options. Y a-t-il une bonne comparaison des technologies disponibles et quels sont les compromis de chacun?

Si vous avez des liens à partager sur chacun, j'apprécierais aussi.

Répondre

4

C'est un problème général. Je vais essayer de donner des directions, et pour chacun, vous pouvez regarder ou demander des informations supplémentaires. Le premier est ... les DB classiques. Si les données sont suffisamment importantes pour que vous puissiez avoir des RAID et un bon serveur, Oracle peut être une bonne solution. TPC-H est une référence standard de l'industrie pour les requêtes d'aide à la décision: http://www.tpc.org/tpch/results/tpch_perf_results.asp et c'est un lien vers le meilleur résultat de performance. Comme vous pouvez le voir, le SGBDR peut évoluer vers des téraoctets de données.
Deuxième est Hadoop sous la forme de HDFS + Map/Reduce + Hive. Hive est la solution datawarehousing au-dessus de MapReduce. Vous pouvez obtenir des avantages supplémentaires, tels que la capacité de stocker des données dans un format original et de les adapter linéairement. Une des choses que vous allez regarder - l'indexation et l'exécution de requêtes très complexes.
Troisième sont MPP - massives bases de données de traitement parallèle. Ils sont évolutifs de dizaines à des centaines de nœuds et ont un support SQL riche. Les exemples sont Netezza, Greenplum, Asterdata, Vertica. Sélection parmi eux n'est pas une tâche simple, mais avec des exigences plus précises, il peut également être fait.

Questions connexes