Je cherche quelque chose en Java pour lire des documents Word pour traiter leur texte .. tout ce dont j'ai besoin, c'est du texte, rien d'extraordinaire. Je connais le POI d'Apache, mais il n'inclut pas le support de DOCX pour le moment.Lire des documents Microsoft Word en texte brut (DOC, DOCX) en Java
Répondre
Avec un peu de google, j'ai trouvé OpenXML4J. Cela pourrait résoudre votre problème. Je n'ai pas utilisé cela avant, je suis sûr que quelqu'un dans la communauté aura une meilleure idée.
Remarque: Ceci est une question en double. Cela a la solution plus un peu de discussion. Link to the question.
Si vous n'avez pas besoin d'informations de formatage, d'images et de tout autre élément de fantaisie, le travail est beaucoup plus simple. Seulement 5 à 10 lignes de code suffiront.
- Traitez DOCX comme un fichier zip. Il s'agit d'un groupe de fichiers qui inclut 'document.xml'. Utilisez ZipInputStream et extrayez ce fichier seul. (vous pouvez utiliser votre utilitaire zip favori et ouvrir docx et voir par vous-même!)
- Utilisez un analyseur SAX et lire le contenu entre le corps du nœud/p/r/t - voila vous avez le texte!
Ceci s'applique uniquement si vous avez besoin du texte seulement.
Bonjour Joseph pouvez-vous écrire ici le code court? Ce serait d'une grande aide pour moi ... –
Vous pouvez essayer docx4j; voir http://dev.plutext.org/svn/docx4j/trunk/docx4j/src/main/java/org/docx4j/TextUtils.java
Essayez apache poi - il peut gérer doc, docx, xls, xlsx, ppt, pptx.
Une autre solution de production est OpenOffice en mode sans tête, qui peut même être utilisée dans un scénario côté serveur.
- 1. Conversion de documents Microsoft Office en texte
- 2. Comment convertir des fichiers .doc ou .docx en .txt
- 3. Convertir doc/docx en sémantique HTML
- 4. Lire des documents dans .NET
- 5. Convertir HTML en Microsoft Word .doc en .NET
- 6. Décharger le document Word (* .doc) en texte?
- 7. Comment modifier le fichier .doc ou .docx en php
- 8. Comment générer des documents Microsoft Word à l'aide Sphinx
- 9. Fusionner des documents Microsoft Word avec TortoiseSVN
- 10. Conversion de fichiers docx en WPF Flow Documents
- 11. Convertir un fichier doc Word en docx sur un serveur sans Word
- 12. Éditeur en ligne de documents Word
- 13. Lire un fichier .doc ou .docx dans asp.net C#
- 14. python convertir microsoft office docs en texte brut sur linux
- 15. Convert Doc, Docx en TIFF avec delphi
- 16. Comment générer un document Word (doc, docx) dans ASP.NET?
- 17. Convertir docx en pdf avec Word Automation Services
- 18. Conversion de doc Word en tiff
- 19. Applescript pour imprimer des documents Word
- 20. Convertir le pdf en word doc file
- 21. Modification de documents Microsoft Word dans ASP.Net
- 22. Comment saisir du texte à partir d'un document word (docx) en C#?
- 23. Nombre de pages dans un document doc en java
- 24. Ajouté Word Doc à CVS - est devenu corrompu
- 25. Affichage de documents Word LIRE SEULEMENT
- 26. Génération de documents Word avec PHP
- 27. Comment lire du texte ou des polices en gras ou en couleur à partir d'un fichier DOC en utilisant java?
- 28. Comment ouvrir un Microsoft Word par appel de fonction?
- 29. Ouverture doc, docx, Excell fichiers en ligne de IE 7.0
- 30. Conversion de Wikitext en texte brut en Java
Est-il raisonnable de garder les deux questions, étant donné que l'on pose des questions sur le format Word doc et l'autre Excel? Ils peuvent être deux sous-ensembles d'un plus grand format de document spec, je ne sais pas honnêtement. –
Je crois que c'est un doublon parce que chaque question pose une question sur l'API de bureau 2007 java. L'autre question, à mon humble avis, répond au courrier. :) – XanderLynn