2009-02-28 9 views

Répondre

13

Les exemples et l'exemple de code sur le site d'Apache sont plutôt bons. Je vous recommande de commencer là.

http://poi.apache.org/hwpf/quick-guide.html

Pour obtenir des bits spécifiques de texte, d'abord créer un org.apache.poi.hwpf.HWPFDocument. Récupère la plage avec getRange(), puis récupère les paragraphes. Vous pouvez ensuite obtenir du texte et d'autres propriétés.

Here pour un exemple d'extraction d'une image. Here pour la dernière révision à ce jour.

Et bien sûr, le Javadocs

Notez que, selon le site de POI,

HWPF est encore au début du développement.

1

Ce n'est pas gratuit (ou même pas cher!) Mais Aspose.Words devrait pouvoir faire ceci. Leur téléchargement d'évaluation vous permettra de jouer avec de petits fichiers.

Les fichiers de destination doivent-ils également être Docs? Vous pouvez ouvrir les documents dans Office et les enregistrer au format HTML. Alors la séparation devient triviale. RTF est également une option viable, mais je ne peux pas recommander un bon parseur RTF au sommet de ma tête.

Modifier dire: je viens de me rappeler une autre solution possible: Jacob, mais vous aurez besoin d'une instance d'Office en cours d'exécution sur la même machine. Il est court pour Java COM Bridge et il vous permet de faire des appels aux bibliothèques COM dans Office pour manipuler les documents. Je suis sûr que ce n'est pas aussi effrayant que cela puisse paraître!

Questions connexes