2009-05-21 5 views
2

Nous avons besoin d'un haut balayage de volume et une solution de ocrnumérisation à haut volume et solution automatique OCR?

nous talkin numérisant environ 4000 documents par jour, et de les enregistrer sous forme de fichier pdf avec ocr (texte caché) ...

la solution devrait laisser les opérateurs numériser un document et enregistrer automatiquement les fichiers à une ressource réseau spécifique, à prendre par une application qu'il télécharge un DB ...

nous évaluons une solution d'entreprise de Kofax http://www.kofax.com/

ce que d'autres produits êtes-vous au courant?

une expérience avec des exigences similaires?

une solution open source (ou au moins accessible)?

com, support d'api activex?

Répondre

0

Kofax n'est pas très utile ou convivial (par mes homologues travaillant avec le comté). C'est correct, mais pas bon.

Nous utilisons une solution entièrement Adobe. Détails à suivre (je ne suis pas responsable de gérer cette zone, donc je dois rassembler des informations pour vous).

Mise à jour: Nous utilisons

Adobe Acrobat Capture 3.0
Deux RICOH Scanner couleur IS760D avec chargeur automatique de documents
Acrobat Standard ou Professional (en fonction de l'utilisateur)

Nous avons une vaste bibliothèque (presque 6000 documents) avec des centaines de milliers de pages numérisées disponibles. L'ordinateur qui effectue la numérisation contient un dongle que nous achetons (250 000 numérisations jusqu'à ce que nous ayons besoin d'acheter une «mise à jour»); Je n'ai pas le coût disponible puisque le monsieur qui s'occupe de ça est rentré à la maison pour la journée, mais je me souviens que c'était dans les micro-cents par page.

Nous scannons souvent des documents avec plusieurs centaines de pages qui doivent être effectuées ce jour-là et nous n'avons aucun problème à effectuer cette tâche.

Un lien vers certains de nos efforts (une interface Web ou des tris vers notre bibliothèque) est disponible au http://acequia.ccrfcd.org/FileLibrary2/FileLibrary.aspx si vous souhaitez avoir une idée de ce que nous avons fait. Pour mettre ces fichiers PDF dans une base de données, il serait assez facile de créer une application (peut-être un service) pour surveiller un répertoire et récupérer chaque PDF qui apparaît après que Capture soit lancé, copier les informations dans la base de données , puis supprimez-le ou déplacez-le dans sa nouvelle maison.

+0

Merci beaucoup pour l'info, michael, si vous pouvez fournir me dire le coût par Pega ce sera merveilleux ... par la manière, faire tous les fournisseurs met en œuvre une politique par page? ?? Je pense que kofax offre une solution similaire, un dongle et vous payez pour chaque page numérisée ... – opensas

4

Il existe de nombreux fournisseurs de produits de numérisation qui peuvent faire ce que vous voulez - numériser, indexer, générer des PDF avec overlay OCR (personnellement, je préfère la sous-couche OCR dans un PDF). Ces exigences sont plutôt triviales pour un fournisseur spécialisé dans l'analyse.Pour ne citer que quelques autres fournisseurs/produits, en plus de Kofax:

  • produit InputAccel d'EMC/Captiva
  • Datacap
  • eCopy ShareScan
  • Verity/Cardiff/Autonomie

De nombreux documents Les solutions de gestion ont également des interfaces de numérisation intégrées, mais elles ne sont généralement pas aussi fonctionnelles que les produits de capture spécialisés. Presque toutes ces solutions ont le support API COM/ActiveX. Je ne connais aucune solution open source pour la numérisation, mais je n'en ai jamais vraiment cherché non plus.

La plupart des fournisseurs de logiciels de numérisation utilisent une licence «volume» ou «capacité». Typiquement, le volume se renouvelle à la fin du terme (c'est-à-dire 1 million de pages par an - renouvellement automatique chaque année sans coût supplémentaire). Ainsi, vous ne payez pas strictement "par page" dans le sens où si vous achetez une capacité de 1M images par an et que vous finissez seulement par numériser 500K pages, vous ne recevez pas de remboursement. Il est possible, bien que beaucoup moins commun d'avoir un volume unique qui ne se renouvelle pas automatiquement et quand il est épuisé, vous devrez acheter du volume supplémentaire. La plupart des fournisseurs s'éloignent des dongles pour contrôler le volume et passent à la licence de logiciel.

Une note de côté à propos de Kofax:

Kofax a toujours été vendu par un système de revendeurs à valeur ajoutée de sorte que la qualité des différentes implémentations peuvent varier considérablement. En outre, il est hautement personnalisable et disponible dans une variété de saveurs avec beaucoup de modules supplémentaires, de sorte que le système Kofax d'un client peut être significativement différent des autres systèmes. Kofax est utilisé dans les systèmes d'entreprise pour la numérisation et la capture automatique de millions et de millions de documents par an. Il a une part importante de la part de marché de numérisation de documents. Non, je ne suis pas un fan de Kofax, si je l'étais je n'aurais pas mentionné de produits compétitifs; Cependant, je suis très familier avec cela. Comme les autres produits sur le marché, il a des forces et des faiblesses. Je réalise que Michael ne faisait que relayer ce qu'il avait entendu mais je ne pouvais pas laisser passer cette généralisation radicale sans commentaire. Dire qu'un produit qui a un pourcentage significatif de part de marché est «inutile ou facile à utiliser» pour la numérisation, c'est un peu comme dire «Windows n'est pas un système d'exploitation serveur utile». C'est trop général d'une généralisation.

Cheers,

Brian

+0

Bonne réponse sur ce sujet étrangement impopulaire (capture d'image à haut volume). – Lunatik

0

Dans quelle mesure vous voulez que votre OCR soit? Avez-vous besoin que tout le contenu soit lisible par l'homme ou avez-vous juste besoin de contenu pour pouvoir classer le document (numéro de client, type de document, codes à barres ...).

http://www.irislink.com est une société qui développe des solutions de numérisation et de classification de documents.
Leur logiciel est inclus dans plusieurs marques de multifonctions et de scanners grand public. L'entreprise est plus orientée vers l'extraction d'informations et leur utilisation (par exemple, saisie automatique de factures dans un logiciel de comptabilité).
D'après mon expérience, il traite mieux le texte OCR (correction de mots, etc.)) que Kofax (nous utilisons les deux); bien que Kofax puisse être étendu plus pour atteindre un meilleur niveau (ceci signifie plus de travail d'installation et plus de maintenance).

Les deux logiciels sont vraiment utiles pour traiter les documents.
Si votre seul souhait est de numériser les documents; convertir en pdf et l'enregistrer sur un partage réseau; vous pouvez avoir assez d'acheter un bon scanner et d'utiliser le logiciel inclus.
Vous pouvez également consulter le projet tesseract; c'est un moteur open source ocr avec de bons résultats.

0

Vous pouvez essayer ChronoScan, il a OCR gratuit via tesseract, et dispose d'options de reconnaissance de formes, et il est gratuit pour une utilisation non commerciale.

Le logiciel est en cours de développement avancé, et vous avez un forum pour parler directement avec les développeurs.

http://www.chronoscan.org Short video reading forms

Questions connexes