2011-07-05 6 views
0

Quelqu'un peut-il suggérer une solution de base de données pour stocker de grands documents qui auront plusieurs révisions branchées? Des modifications partielles du contenu devraient être possibles sans avoir à mettre à jour l'ensemble du document. Je regardais les bases de données XML et je me demandais si elles étaient appropriées, ou peut-être même en utilisant un DVCS (comme Mercurial).Base de données pour stocker des documents volumineux

Il devrait de préférence avoir des liaisons Python.

+0

définir 'document'. Parlez-vous de gros blocs de texte ou de formats de document de système de fichiers tels que MS Word? –

+0

Gros blocs de texte - ils vont tous être normalisés au format XML. – rfw

+0

Avez-vous regardé http://www.alfresco.com/? –

Répondre

1

Essayez Fossil - il a un bon algorithme de codage delta, et conserve toutes les versions. Il est soutenu par une base de données SQLite unique, et dispose à la fois d'une interface Web et d'une interface de ligne de commande.

+0

Est-ce que Fossil supporte les modifications partielles (comme pour pouvoir extraire une partie du fichier et le valider)? – rfw

+0

Vous devez valider l'intégralité du nouveau document, mais l'algorithme de codage delta évite la duplication du contenu dans le référentiel. –

+0

Je ne veux pas vraiment devoir extraire le document entier, car il peut être arbitrairement long. – rfw

0

Cela dépend de votre comportement de stockage et de votre cas d'utilisation. Si vous envisagez de stocker un grand nombre de «révisions de documents» et de conserver des versions historiques, et que vous pouvez vous conformer à un modèle write-once-read-many, vous devriez vous intéresser à quelque chose comme Hadoop HDFS. Cela nécessite beaucoup d'infrastructure (bon marché) pour faire fonctionner votre cluster, mais vous serez en mesure de continuer à ajouter des révisions/données au fil du temps et serez en mesure de le rechercher rapidement en utilisant un algorithme MapReduce.

+0

Malheureusement, il est plus écrit beaucoup de lire beaucoup, et les écritures ne sont pas nécessairement grandes. – rfw

Questions connexes