2010-09-19 7 views
0

Je veux lire un document MS Word et identifier des mots de police en-tête/gras/des mots soulignés, etc. est-il un moyen de résoudre ce problème par programme? Je veux la suggestion en Java ou PHP ou Ruby si possible, sinon s'il y a des méta-données disponibles, faites le moi savoir.MS Word reconnaissant Heading/Font etc?

+0

http://stackoverflow.com/questions/188452/reading-writing-a-ms-word-file-in-php – NAVEED

Répondre

1

Vous avez Java API qui peut le faire. Je vous suggère de regarder la bibliothèque Apache POI.

+0

Apache Tika est un bon projet, j'ai découvert qu'il fait beaucoup de choses. – realnumber

1

Ceci est lié à cette What's a good Java API for creating Word documents?

Il y a un travail dans l'API de progression pour celui-ci en utilisant Apache POI.

HWPF est le nom de notre port du Microsoft Word 97 (-2007) format de fichier à Java pur. Il fournit également un support limité en lecture seule pour les formats de fichier Word 6 et Word 95, ainsi que les formats de fichier Word 95.

Le partenaire de HWPF pour le nouveau format Word 2007 .docx est XWPF. Alors que HWPF et XWPF fournissent des fonctionnalités similaires, il n'y a pas une interface commune à travers les deux d'entre eux à ce moment.

http://poi.apache.org/hwpf/quick-guide.html