Service d'archivage pour un grand nombre de documents similaires

J'aimerais mettre en place une sorte de service d'archivage. L'idée est que j'envoie un document (quelques dizaines de Ko de HTML) au service, il me renvoie un identifiant court, et plus tard je peux utiliser l'identifiant pour récupérer le document. Beaucoup de documents seront très similaires les uns aux autres; pour n'importe quel document, il pourrait y avoir 1000 autres qui se chevauchent avec lui de 95%. Ainsi, chaque fois que j'envoie un document, le service d'archivage devrait essayer de trouver un document similaire, et stocker les différences.Service d'archivage pour un grand nombre de documents similaires

Existe-t-il déjà un système de ce type? Je préférerais quelque chose basé sur PHP/MySQL si possible.

Source

2013-02-02 Neil Strickland

CouchDB vient à l'esprit de votre cas d'utilisation. Lisez à propos de la façon dont ils stockent les documents en JSON et comment ils ont des révisions pour les documents (stockés dans un champ _rev).

http://guide.couchdb.org/draft/documents.html

Il ne sera pas faire des comparaisons pour vous cependant. Cette responsabilité vous incomberait avec une implémentation simple de CouchDB, mais elle gère très bien les versions pour vous.

Malheureusement, je ne connais aucune base de données prête à l'emploi qui compare des documents, puis trouve des éléments similaires et les remplace.

Source

2013-02-03 01:22:33 ryan1234

Service d'archivage pour un grand nombre de documents similaires

Répondre

Questions connexes