2010-09-01 13 views
1

Je travaille sur un projet avec des documents PDF interrogeables.Comment obtenir un extrait d'image à partir du PDF

Après avoir trouvé le texte pertinent - je veux être en mesure d'afficher un petit extrait d'image du texte correspondant.

Quelqu'un peut-il me diriger vers des ressources ou des boîtes à outils qui me permettront de le faire.

Roger Somerset UK

+1

Un langage de programmation particulier? – JulesLt

+0

C# ASP.Net pour s'asseoir à l'intérieur de notre site Web –

Répondre

0

Pour afficher un petit extrait d'une partie d'un fichier PDF, vous aurez besoin de rendre le PDF à un format d'image et de l'afficher. En ce qui concerne la façon dont vous n'affichez que la petite zone de la page contenant le texte correspondant, vous pouvez le faire de différentes manières.

  1. Trouver un SDK qui vous permet d'extraire tout le texte d'un document PDF avec les coordonnées des mots individuels dans le PDF. Recherchez ensuite dans le texte extrait le texte correspondant et récupérez les coordonnées.
  2. Vous pouvez également rechercher un SDK qui effectue la recherche pour vous, mais il doit également vous donner les coordonnées des mots individuels.
  3. Une fois le mot correspondant trouvé, récupérez les coordonnées de ce mot, puis recadrez la zone autour de ce mot (vous pouvez rendre cette zone aussi grande ou petite que vous le souhaitez), puis rendez cette page sous forme d'image . Seule la zone recadrée sera rendue et ce sera votre "extrait". Le recadrage/rendu d'une page chaque fois que vous souhaitez afficher un résultat de recherche correspondant peut dans certains cas être lent, de sorte que vous pouvez également expérimenter le rendu de la page entière et ensuite recadrer l'image aux coordonnées nécessaires dans votre langage de programmation de choix et ensuite afficher l'image recadrée.

Ainsi, les exigences clés pour vous sont:

  • texte Extrait avec coordonnées
  • page des cultures en PDF
  • Render un PDF

Quant à des boîtes à outils qui peut Pour ce faire, cela dépend entièrement du langage de programmation que vous utilisez. Ajoutez un commentaire à votre langage de programmation et je mettrai à jour ma réponse avec quelques suggestions.

+0

C# et ASP.NET pour siéger sur notre site Web. J'ai joué avec un produit appelé dtSearch qui va indexer mes fichiers PDF et quand je suis recherché, renvoyez-moi un objet qui contient ce que je pense être des corrections de mots dans le document. Il existe une option permettant d'afficher ces occurrences sous la forme d'un document XML qui, lorsqu'il est envoyé à Acrobat Reader, met en évidence les occurrences. C'est génial pour le document mais je voudrais montrer l'extrait. L'une des principales raisons à cela est que la couche de texte OCRed peut ne pas être 100% bon texte mais assez pour la recherche de trouver. –

+1

En guise de suivi, j'ai trouvé une bibliothèque très complète pour la manipulation de PDF - http://www.quickpdf.org/. C'est un produit commercial mais vraiment trop cher par rapport à sa liste de fonctionnalités. –

Questions connexes