2012-05-28 2 views
3

il montre des lettres, mais dans l'ordre inverse de l'arabe j'utiliser le code suivantJe veux afficher un texte en arabe à partir d'un fichier pdf en utilisant pdfbox?

PDDocument pddDocument = PDDocument.load(new File("test1.pdf")); 
     PDFTextStripper textStripper = new PDFTextStripper(); 

     TextNormalize normalize = new TextNormalize("UTF-8"); 
     String Text = textStripper.getText(pddDocument); 

     Text=normalize.makeLineLogicalOrder(Text, true); 
     Text = normalize.normalizePres(Text); 
     Text = normalize.normalizeDiac(Text); 
     System.out.println(Text); 
+0

Le dernier paragraphe ici http://pdfbox.apache.org/userguide/text_extraction.html contient des instructions sur le traitement du texte RTL. – Ansari

+0

je l'ai lu mais je ne peux pas utiliser ICU4J avec pdfbox pour montrer les caractères correctement – Mohab

Répondre

4

Le problème résolu avec le téléchargement icu4j-49_1.jar de http://site.icu-project.org/download/49#TOC-ICU4J-Download mettre dans le chemin de classe

Puis réécrivant le code comme suit

PDDocument pddDocument = PDDocument.load(new File("test1.pdf")); 
      PDFTextStripper textStripper = new PDFTextStripper(); 
      String Text = textStripper.getText(pddDocument); 
      System.out.println(Text); 
Questions connexes