J'ai vraiment eu du mal à faire de SQL Server quelque chose que, franchement, il ne sera jamais. J'ai besoin d'un moteur de base de données pour mon travail analytique. Le DB doit être rapide et n'a pas besoin d'autant l'exploitation forestière et autres frais généraux trouvés dans les bases de données typiques (SQL Server, Oracle, DB2, etc.)Magasins de colonnes: comparaison de bases de données en colonnes
Hier j'ai écouté Michael Stonebraker speak at the Money:Tech conference et je pensais: « Je ne suis pas vraiment fou, il y a un meilleur moyen! Il parle d'utiliser column stores au lieu de bases de données orientées ligne. Je suis allé à la page Wikipedia pour column stores et je vois quelques projets open source (que j'aime) et quelques projets commerciaux/open source (que je ne comprends pas complètement).
Ma question est la suivante: Dans un environnement analytique appliqué, comment les différents DB basés sur les colonnes diffèrent-ils? Comment devrais-je penser à eux? Quelqu'un at-il une expérience pratique avec plusieurs systèmes basés sur des colonnes? Puis-je tirer parti de mon expérience SQL avec ces bases de données ou dois-je apprendre une nouvelle langue? Je vais finalement extraire des données dans R pour les analyser.
EDIT: On m'a demandé de clarifier ce que j'essaie exactement de faire. Donc, voici un exemple de ce que je voudrais faire: Créer une table qui a 4 millions de lignes et 20 colonnes (5 dims, 15 faits). Créez 5 tables d'agrégation qui calculent les valeurs max, min et average pour chacun des faits. Joignez ces 5 agrégations à la table de départ. Calculez maintenant le pourcentage d'écart par rapport à la moyenne, le pourcentage d'écart de min et le pourcentage d'écart par rapport à la valeur maximale pour chaque ligne et ajoutez-le à la table d'origine. Cette table n'obtient pas de nouvelles lignes chaque jour, elle est TOTALEMENT remplacée et le processus est répété. Que Dieu nous garde si le processus doit être arrêté. Et les journaux ... ohhhhh les journaux! :)
Quel est l'outil ETL le plus facile à utiliser pour LucidDB? Bouilloire? –
JD, avez-vous finalement essayé LucidDB de R? La façon RJDBC fonctionne-t-elle de manière transparente avec LucidDB? Désireux de connaître votre expérience. –
J'ai écrit une comparaison de différentes bases de données orientées colonne ici: http://www.timestored.com/time-series-data/column-oriented-databases –