2009-09-29 11 views
13

Le 28 septembre 2009, le Apache POI project a publié la version 3.5 qui prend officiellement en charge les formats OOXML introduits dans Office 2007, comme DOCX et XLSX.Comment extraire du texte en clair à partir d'un fichier DOCX en utilisant le nouveau support OOXML dans Apache POI 3.5?

Veuillez fournir un exemple de code pour extraire le contenu d'un fichier DOCX en texte brut, en ignorant les styles ou le formatage.

Je pose cette question parce que j'ai été incapable de trouver des exemples de POI Apache couvrant le nouveau support OOXML.

Répondre

16

Cela a fonctionné pour moi. Assurez-vous que vous ajoutez les pots nécessaires (mise à niveau xmlbeans, etc.)

public String extractText(InputStream in) throws Exception { 
    XWPFDocument doc = new XWPFDocument(in); 
    XWPFWordExtractor ex = new XWPFWordExtractor(doc); 
    String text = ex.getText(); 
    return text; 
} 
6

Ceci est plus générique

POITextExtractor poitex = ExtractorFactory.createExtractor (en);

retour poitex.getText();

+1

Je suis d'accord. Merci pour une bonne réponse couvrant l'extraction de texte plus générique. J'aimerais pouvoir accepter les deux. – rcampbell

Questions connexes