Je suis en train de modéliser un sujet sur un e-book pdf et j'ai besoin d'extraire du texte paragraphe par paragraphe. Pour cela j'utilise apache pdfBox qui extrait efficacement le texte du pdf.Extrait du paragraphe pdf
PDFParser parser; PDFTextStripper pdfStrip = null; parsedText = pdfStrip.getText (pdDoc);
Mais je ne peux pas extraire les paragraphes séparément. Cet outil fournit un moyen de définir l'identifiant de début/fin de paragraphe, mais j'ai besoin de connaître l'identificateur de rupture de paragraphe pour cela.
Existe-t-il un moyen de le faire, ou est-ce qu'il existe un autre outil disponible pour l'extraction de paragraphe efficace?