2013-05-13 2 views
0

Je voudrais faire un programme qui cherche des mots dans un pdf en utilisant PDFBox.Programme avec PDFBox recherche de mots

Voici mon petit programme:

List<String> words ;// List of words 
     PDDocument document = PDDocument.load("D:\\INIT.pdf");    
     PDFTextStripper s = new PDFTextStripper(); 
     String content = s.getText(document); 
     Comparing(content,words);//methode for searching those words on my text 
     System.out.println(content); 

Mais est-il possible de regarder directement dans le PDF sans le texte avec getText?

getText renvoie une chaîne .dans le cas où nous avons un grand texte en pdf Fichier cette chaîne peut-elle porter le même texte, existe-t-il un autre type à utiliser lorsque le texte est grand et non pris en charge par String ??? ?

+1

Même avec l'édition, le paragraphe avec 'renvoie une chaîne' n'a aucun sens pour moi. Pouvez-vous le reformuler? –

+0

OK, merci @AndrewThompson – salvador

+1

Et .. ce mot est épelé avec un A - «merci» par opposition à «pensez-vous». ;) –

Répondre

1

J'espère que vous trouverez une solution pour cela dans PDFBox.

L'ensemble du processus est plutôt plus difficile qu'il n'y paraît. Par exemple, le texte PDF est divisé en fragments discontinus et les espaces sont souvent représentés comme des espaces plutôt que comme des espaces. Il est nécessaire à la fois d'abstraire les fragments et de conserver le lien entre le texte lisible par l'homme et les fragments sous-jacents dans le PDF. C'est assez difficile.

De toute façon, si vous ne trouvez pas une solution satisfaisante dans PDFBox ABCpdf le fera pour vous. Par exemple, le lien ci-dessous montre comment trouver et surligner des mots-clés dans un fichier PDF.

http://www.websupergoo.com/helppdf9net/source/8-abcpdf.operations/8-textoperation/1-methods/group.htm

Je travaille sur le composant logiciel .NET ABCpdf pour que mes réponses peuvent présenter des concepts basés autour ABCpdf. C'est juste ce que je sais. :-)