2009-11-25 4 views
1

je dois analyser le grand texte (environ 1000 pages de document Word ou pdf) et placer une partie du texte à l'intérieur de ce document dans les champs de base de donnéestexte extrait word ou pdf selon le format (nom de la police et la taille)

J'ai trouvé que la seule chose que je peux distinguer le texte que je veux extraire est le format, c'est toujours "Helvetica-Condensed" taille 12

puis-je faire cela? Je sais comment utiliser les fonctions de chaîne, mais ce que je devrais utiliser pour tester le format?

comme je l'ai dit le texte est stocké à l'intérieur de document Word ou PDF

s'il est un composant tiers ne peut pas faire problème s'il vous plaît se référer à moi

Merci

Répondre

0

L'autre option consiste à le coder vous-même. Le file specification est disponible en ligne, et si vous essayez seulement d'extraire le texte du document, cela devrait vous guider dans la plupart des cas.

La seule chose à faire attention sont les documents qui sont entièrement construits à partir d'images. Dans ce scénario (peu importe ce que vous utilisez pour lire le fichier), vous aurez également besoin d'une application de type ROC. Pour voir si c'est le cas ou non, ouvrez un échantillon du type de fichier que vous voulez extraire du texte, sélectionnez le texte à copier puis essayez de coller dans le bloc-notes.

Questions connexes