2011-03-15 3 views
1

Comment extraire le texte d'un fichier .tex en utilisant Apache Tika? Un exemple de fichier est à http://www.tug.org/texshowcase/EulerGibbsDuhem.texExtrait du texte des fichiers .tex en utilisant Tika

Tika est capable de détecter correctement le type de contenu comme application/x-tex mais n'en extrait rien.

J'ai essayé la commande

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex 

et aussi le code suivant:

File file = new File(fileName); 
Tika tika = new Tika(); 
String mimeType = tika.detect(file); 
pageContent = tika.parseToString(file); 

Répondre

0

Tika prend en charge la détection de l'extension de fichier .tex, mais il n'y a pas un analyseur syntaxique pour encore, désolé .

Si vous pouvez trouver une bonne bibliothèque Java (idéalement Apache Licensed) pour l'analyse des fichiers .tex, alors je vous suggère d'ouvrir une nouvelle requête d'amélioration dans le Tika JIRA (https://issues.apache.org/jira/browse/TIKA) et demander un analyseur syntaxique basé sur cette bibliothèque.

+0

Merci, si je trouve une telle bibliothèque, alors je vais ouvrir un ticket. – nikhil500

Questions connexes