2017-10-02 4 views

Répondre

0

Cela dépend, si votre document est étiqueté, il devrait être facile de générer une table des matières. Sinon, vous allez plonger dans le monde de la reconnaissance de structure.

Vous voyez, PDF n'est pas un format WYSIWYG. Pensez-y plus comme un conteneur d'instructions, qu'un document texte. Obtenir n'importe quel texte d'un document PDF est un problème complexe (iText le rend juste facile). Cela implique le traitement des instructions d'analyse, le suivi de ce qui est rendu à quelles coordonnées, puis le tri selon l'ordre de lecture logique.

Et c'est juste pour obtenir du texte. Ce que vous voulez nécessite encore plus d'étapes pour comprendre où sont les paragraphes, et quels sont les extraits de texte susceptibles d'être des titres de sections et de sous-sections.

+0

Je pensais pouvoir garder la première ligne de chaque page et je peux créer le toc avec cette ligne, mais si un chapitre est dans la même page qu'un autre? – thenoobdeveloper

+0

Si vous voulez le faire de cette façon, il suffit d'obtenir le texte de chaque page. Et puis diviser sur newline. –