Java - PDFBox - Extraction de texte

J'ai utilisé pdfbox pour extraire des informations textuelles de PDF. J'ai analysé avec succès toutes les propriétés du texte telles que le nom de police, la police, la taille, la position etc.Java - PDFBox - Extraction de texte

PROBLÈME: J'utilise pdfbox1.2.1 (dernière version). GetCharacter() dans la classe TextPosition renvoie la chaîne complète à l'exception du dernier caractère. Le dernier caractère est analysé en tant que chaîne distincte. Ex: "How are you" est analysé comme "Comment sont yo" et "u" (2 chaînes séparées).

Je ne veux pas que cela se produise de cette façon ..

Quelqu'un at-il venir accross cela? .. Suis-je faire quelque chose de mal ?? .. En attente de réponse ..

Merci et salutations, Magggi

Source

2010-07-28 Magggi

Je ne pense pas que vous l'utilisez mal. Il y a un PDF avec lequel je travaille ** qui renvoie ** chaque caractère ** en tant que 'String'. Malheureusement, je n'ai pas vraiment de solution pour vous. Je serais curieux de connaître la réponse aussi. –

Je suis capable d'extraire des lignes de texte à partir de PDF.Mais dans chaque ligne, la scission comme mentionné ci-dessus se produit. – Magggi

Ce problème est résolu.

Le code suivant dans processEncodedText(byte[] string) dans PDFStreamEngine.java

if(spacingText == 0 && (i + codeLength) < (string.length - 1)) 
{ 
    continue; 
}

devrait être remplacé

if(spacingText == 0 && (i + codeLength) < (string.length)) 
{ 
    continue; 
}

Cordialement, Maggi

Source

2010-08-30 12:09:29 Magggi

Oui. Ce problème est résolu par pdfbox.
Essayez la dernière version de pdfbox. La dernière version peut être téléchargée à partir de http://pdfbox.apache.org/download.html

Source

2012-06-30 05:17:54 Neeraj

Java - PDFBox - Extraction de texte

Répondre

Questions connexes