2017-05-23 8 views
0

Pour un projet owncloud (ou nextcloud) nous devons ajouter une grande quantité de stockage, j'ai vérifié toutes les options telles que: CEPH, Openstack Swift/Cinder, GlusterFS, SDFS et Tahoe-lafs.Fonction de déduplication OpenStack (Swift) ou CEPH? ou toutes les solutions de cluster de stockage HA déduplication?

Avec ce service, nous nous attendons à ce qu'un grand nombre des mêmes fichiers soient ajoutés par les utilisateurs, c'est pourquoi la déduplication est très importante pour nous. Jusqu'à présent, les seules solutions pour la déduplication des données de stockage en cluster seraient SDFS et Tahoe-lafs. Cependant nos soucis sont ces deux sont Java et Python et blesseront beaucoup de CPU. (* Oui, la déduplication signifiera probablement plus de RAM et de CPU aussi)

Peut-être que l'un de vous a une meilleure solution? * Le système de fichiers de déduplication (par exemple ZSF) ne fonctionnera pas car les données sont stockées sur plusieurs machines (HA Cluster).

+0

À l'heure actuelle, OpenStack Swift version actuelle (2.13.0) n'a pas de fonctionnalité de déduplication autant que je sache. –

Répondre

0

Ce n'est pas une solution complète qui est ce que je pense que vous cherchez, mais plutôt une bibliothèque de déduplication open source pour Node.js avec un natif liaison écrit en C++ et une implémentation de référence écrit en Javascript:

https://github.com/ronomon/deduplication

Cela devrait être assez rapide si vous pouvez implémenter vous-même l'indexation en utilisant un magasin KV supporté par LSM-Tree.