2015-04-16 1 views
2

Je suis passé par le projet APACHE POI et je l'ai trouvé utile pour extraire le contenu textuel des fichiers MS Word. Plus précisément, il existe une fonctionnalité appelée Text Extraction dans POI qui fait le travail efficacement. J'ai également entendu parler de Apache Tika qui utilise le POI Apache en interne.Extrait du texte du fichier MS Word (.doc) dans l'application Web Ruby on Rails à l'aide d'Apache POI

Maintenant, nous avons besoin de notre application Web Rails pour extraire le contenu du texte à partir d'un fichier (.doc). Quelles pourraient être les possibilités que nous pourrions intégrer Apache POI/Apache Tika dans mon application web pour servir mon but?

Si quelqu'un a une expérience pertinente, j'aimerais en savoir plus à ce sujet avec les extraits de code.

+0

Pourquoi vote près? La question est assez technique et spécifique. Je ne sais pas comment l'utiliser dans un projet Rails, alors quelle aurait été une meilleure façon de le demander? –

+0

Avez-vous regardé la documentation POI pour Ruby Bindings? https://poi.apache.org/poi-ruby.html –

+0

La question est très large et il serait difficile de donner une réponse définitive. Même si tout le monde «partagera ses expériences», il sera difficile de choisir une seule bonne réponse, car vous n'avez fourni aucun critère objectif pour le faire. La question montre peu d'effort de recherche - vous devriez probablement commencer par lire la documentation, chercher des liens pertinents (comme suggéré par @NickVeys) et si vous tomberez sur quelque chose de spécifique, alors vous êtes invités à le demander. – GreyCat

Répondre

1

Votre meilleur pari, puisque vous n'utilisez pas de JVM, est d'utiliser le Apache Tika JAXRS server, disponible à partir du Apache Tika download page. Cela permet aux interfaces RESTful d'extraire le texte (et les métadonnées) de Tika de vos fichiers. Comme il s'agit d'un serveur autonome, il vous suffit de lancer la JVM une seule fois. Elle sera alors disponible et disponible pour chaque requête que vous envoyez, ce qui accélérera les choses. Pour obtenir le texte brut, envoyez votre document à http://localhost:9998/tika avec un en-tête de demande HTTP de Accept: text/plain et vous obtiendrez le texte brut.

Vous pouvez trouver plus sur les points d'extrémité RESTful disponibles du serveur sur le Tika Wiki, ou tout simplement en démarrant le serveur (java -jar tika-server-1.X.jar) et va http://localhost:9998/ dans votre navigateur web

+0

Existe-t-il un moyen de convertir le contenu du fichier Word en HTML exactement semblable? –

+0

Pour un code HTML assez similaire, définissez une acceptation de 'text/html' au lieu de' text/plain'. Pour exactement le même, vous aurez besoin d'une copie de Microsoft Office, et même si c'est loin ... – Gagravarr

+0

Est-ce que cela nécessite JRuby? Ou est-ce que Ruby 1.9 est suffisant? –