2009-05-06 6 views
2

Je vérifie si un document PDF est consultable si je peux obtenir du texte à partir de chaque page d'un fichier PDF.Validation des fichiers PDF (Image + Texte PDF) validation

Mais vérifier chaque page semble prendre une éternité quand j'essaye d'extraire le texte d'un PDF qui contient plus de 500 ~ 2000 pages.

Est-il possible qu'un PDF contienne du texte pour une page mais pas pour le reste? Ce que je suis en train de faire ici est que, si une première page de PDF contient du texte, il est un PDF interrogeable autre non ..

Répondre

0

Essayez cette version de Searcharoo, qui vous permet de rechercher des documents Word et PDF .

+0

@Chris: "PDF interrogeable" est quelque chose que vous pouvez rechercher du texte sur * dans * PDF, pas à partir du système de fichiers. – Sung

2

Oui, il est très possible qu'un fichier PDF contienne du texte sur une page mais pas le reste. Vous pourriez très bien avoir un PDF de 500 pages qui contient des images sur les 499 premières pages, mais qui contient du texte sur la dernière page. À moins que vous ne souhaitiez ouvrir le fichier PDF vous-même et le numériser pour des opérations de texte/texte, vous devez utiliser une bibliothèque PDF tierce existante qui vous permet d'extraire le texte d'un fichier PDF.

En outre, voir la réponse de Ferruccio à un question lié, qui est d'utiliser l'interface IFilter, spécifiquement conçu pour l'indexation de recherche et l'extraction de texte.

Questions connexes