2010-07-28 6 views
5

J'ai utilisé pdfbox pour extraire des informations textuelles de PDF. J'ai analysé avec succès toutes les propriétés du texte telles que le nom de police, la police, la taille, la position etc.Java - PDFBox - Extraction de texte

PROBLÈME: J'utilise pdfbox1.2.1 (dernière version). GetCharacter() dans la classe TextPosition renvoie la chaîne complète à l'exception du dernier caractère. Le dernier caractère est analysé en tant que chaîne distincte. Ex: "How are you" est analysé comme "Comment sont yo" et "u" (2 chaînes séparées).

Je ne veux pas que cela se produise de cette façon ..

Quelqu'un at-il venir accross cela? .. Suis-je faire quelque chose de mal ?? .. En attente de réponse ..

Merci et salutations, Magggi

+0

Je ne pense pas que vous l'utilisez mal. Il y a un PDF avec lequel je travaille ** qui renvoie ** chaque caractère ** en tant que 'String'. Malheureusement, je n'ai pas vraiment de solution pour vous. Je serais curieux de connaître la réponse aussi. –

+0

Je suis capable d'extraire des lignes de texte à partir de PDF.Mais dans chaque ligne, la scission comme mentionné ci-dessus se produit. – Magggi

Répondre

3

Ce problème est résolu.

Le code suivant dans processEncodedText(byte[] string) dans PDFStreamEngine.java

if(spacingText == 0 && (i + codeLength) < (string.length - 1)) 
{ 
    continue; 
} 

devrait être remplacé

if(spacingText == 0 && (i + codeLength) < (string.length)) 
{ 
    continue; 
} 

Cordialement, Maggi

Questions connexes