2008-12-17 8 views
13

Est-ce que quelqu'un sait d'une bibliothèque que je peux utiliser sur OS X/Linux pour analyser les fichiers Word et afficher le contenu au format HTML?Comment analyser des documents Word avec ruby?

J'ai regardé win32ole mais pour autant que je puisse voir c'est pour Windows seulement, même si je peux me tromper.

Des suggestions?

Répondre

10

Le format de document Word (ignorant docx pour l'instant) est terrible et changeait constamment. À mon humble avis c'est pourquoi il y a si peu (lire: zéro) bibliothèques Ruby là-bas pour les analyser.

Ce que je recommande de faire est d'utiliser JRuby et certaines des bibliothèques Java établies pour lire le format doc. Google devrait vous aider: http://schmidt.devlib.org/java/libraries-word.html.

Il existe un projet Java pour lire les formats de fichiers MIcrosoft, POI (http://poi.apache.org/) et ils ont des bindings Ruby (http://poi.apache.org/poi-ruby.html) mais je ne suis pas sûr de leur mise à jour. Sur leur site il est dit que les fixations Ruby sont pour 1.8.2 ...

Questions connexes