2011-03-15 3 views
0

Je suis en train de modéliser un sujet sur un e-book pdf et j'ai besoin d'extraire du texte paragraphe par paragraphe. Pour cela j'utilise apache pdfBox qui extrait efficacement le texte du pdf.Extrait du paragraphe pdf

PDFParser parser; PDFTextStripper pdfStrip = null; parsedText = pdfStrip.getText (pdDoc);

Mais je ne peux pas extraire les paragraphes séparément. Cet outil fournit un moyen de définir l'identifiant de début/fin de paragraphe, mais j'ai besoin de connaître l'identificateur de rupture de paragraphe pour cela.

Existe-t-il un moyen de le faire, ou est-ce qu'il existe un autre outil disponible pour l'extraction de paragraphe efficace?

Répondre

1

PdfNitro est le meilleur outil que j'ai trouvé pour extraire le paragraphe.

Le seul problème avec cet outil est qu'il considère un saut de page comme un saut de paragraphe, sinon cela fonctionne bien. Cet outil est disponible en version d'essai de 14 jours pour tester.