2010-06-02 4 views
4

Nous sommes désormais tenus par la loi de numériser tous les documents financiers de notre société et de les soumettre à des évaluations tous les 3 mois. Puisqu'il s'agit de données sensibles, nous avons décidé de prendre les choses en main et de construire une sorte d'archiveur de données numériques. L'outil fonctionne parfaitement, mais après 7 mois d'utilisation, nous commençons à nous inquiéter de l'espace disque utilisé par ces images.Compression d'images de documents numérisées

Voici quelques informations sur la quantité de documents numérisés:

  • 15K documents numérisés et archivés par jour, avec la taille PNG final de + - 860KB: 15 000 * 860 kilobits = 1.53779984 gigaoctets
  • 30 jours de travail par mois: 1.53779984 gigaoctets * 30 = 46.1339952 gigaoctets
  • Attente de l'utilisation de l'espace disque après 1 an: 46.1339952 gigaoctets * 12 = 553.607942 gigaoctets

S Jusqu'ici nous sommes à 424 gigaoctets d'espace disque utilisé, sans compter la sauvegarde. Nous utilisons le format PNG comme image, mais j'aimerais savoir si quelqu'un a des conseils sur un meilleur algorithme de compression pour les images ou des stratégies alternatives pour compresser le PNG encore mieux ou encore mieux pour archiver les images afin d'économiser de l'espace disque.

Toute aide serait appréciée, merci.

Répondre

3

Vous serez mieux avec DjVu, un format relativement nouveau qui a été conçu expressément pour compresser des documents numérisés. Il fonctionne bien pour les documents bitonaux, en niveaux de gris et en couleur. Il combine la séparation de premier plan/fond avec un schéma sophistiqué de compression d'ondelettes. Si vous obtenez la version commerciale, je crois que vous pouvez également obtenir vos documents OCR'd afin que vous puissiez les rechercher, mais il existe une version complètement open-source appelée DjVuLibre.

+0

Quel site ennuyeux! Tout le document détaillé est au format djvu. Quelqu'un a besoin d'un 2x4 à l'envers de la tête. – ergosys

+0

@ergosys: Aïe! C'est ennuyeux. L'histoire est un peu triste --- vraiment une bonne recherche faite à AT & T, les avocats ont décidé qu'ils devaient monétiser, les gens originaux ont déménagé, le résultat final == chaos partout. Mais le logiciel est vraiment bon. Je l'utilise énormément sur des boîtes littéralement de documents que j'ai scannés. –

2

Il est probable que ces documents n'ont pas besoin d'être constamment en ligne. Si tel est le cas, d'après les informations que vous avez fournies, je ne vois pas pourquoi vous devriez changer votre flux de travail.

Le format PNG est un format largement supporté avec compression sans perte (zlib), que je suppose que vous utilisez. Si vous n'avez pas besoin d'une compression sans perte, un bon fichier JPEG vous donnera une compression plus forte au détriment d'une perte de qualité mineure, à condition que vous ajustiez les taux de compression de manière appropriée. JPEG2000 peut être une autre alternative, en fonction de la pile de votre logiciel. Le format TIFF compressé par LZW ne présente aucun avantage majeur par rapport au format PNG autre que le support 16 bits par pixel, dont vous n'avez probablement pas besoin. D'autres options incluent des codecs de spécialité propriétaires (comme MrSID) qui offrent une très bonne compression de fichiers extrêmement volumineux, pour un prix.

Puisqu'il s'agit de documents numérisés, je suppose que je considérerais le format PDF comme le format «naturel» dans lequel les coder. PDF offre une variété d'options de compression en fonction du contenu des fichiers. Mais je n'irais pas très loin pour réparer quelque chose qui n'est pas cassé.

Si vous pensez à combien vous dépensez sur l'espace disque maintenant, 1,5 Go par jour n'est rien. L'espace de conduite est bon marché et devient de moins en moins cher. Il suffit d'acheter trois nouveaux lecteurs USB de 1 To (sauvegarde primaire/sauvegarde/hors site) tous les 6 mois pour un coût total de 240 $ ou autre. Même la sauvegarde sur bande n'est pas déraisonnable.

0

500 Gb par an, ce n'est pas beaucoup, et les disques durs sont de moins en moins chers chaque année