2010-02-15 4 views

Répondre

3

Avec un peu de google, j'ai trouvé OpenXML4J. Cela pourrait résoudre votre problème. Je n'ai pas utilisé cela avant, je suis sûr que quelqu'un dans la communauté aura une meilleure idée.

Remarque: Ceci est une question en double. Cela a la solution plus un peu de discussion. Link to the question.

+1

Est-il raisonnable de garder les deux questions, étant donné que l'on pose des questions sur le format Word doc et l'autre Excel? Ils peuvent être deux sous-ensembles d'un plus grand format de document spec, je ne sais pas honnêtement. –

+0

Je crois que c'est un doublon parce que chaque question pose une question sur l'API de bureau 2007 java. L'autre question, à mon humble avis, répond au courrier. :) – XanderLynn

5

Si vous n'avez pas besoin d'informations de formatage, d'images et de tout autre élément de fantaisie, le travail est beaucoup plus simple. Seulement 5 à 10 lignes de code suffiront.

  1. Traitez DOCX comme un fichier zip. Il s'agit d'un groupe de fichiers qui inclut 'document.xml'. Utilisez ZipInputStream et extrayez ce fichier seul. (vous pouvez utiliser votre utilitaire zip favori et ouvrir docx et voir par vous-même!)
  2. Utilisez un analyseur SAX et lire le contenu entre le corps du nœud/p/r/t - voila vous avez le texte!

Ceci s'applique uniquement si vous avez besoin du texte seulement.

+0

Bonjour Joseph pouvez-vous écrire ici le code court? Ce serait d'une grande aide pour moi ... –

2

Essayez apache poi - il peut gérer doc, docx, xls, xlsx, ppt, pptx.

Une autre solution de production est OpenOffice en mode sans tête, qui peut même être utilisée dans un scénario côté serveur.

Questions connexes