Extrait du texte des fichiers .tex en utilisant Tika

Comment extraire le texte d'un fichier .tex en utilisant Apache Tika? Un exemple de fichier est à http://www.tug.org/texshowcase/EulerGibbsDuhem.tex Extrait du texte des fichiers .tex en utilisant Tika

Tika est capable de détecter correctement le type de contenu comme application/x-tex mais n'en extrait rien.

J'ai essayé la commande

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

et aussi le code suivant:

File file = new File(fileName); 
Tika tika = new Tika(); 
String mimeType = tika.detect(file); 
pageContent = tika.parseToString(file);

Source

2011-03-15 nikhil500

Tika prend en charge la détection de l'extension de fichier .tex, mais il n'y a pas un analyseur syntaxique pour encore, désolé .

Si vous pouvez trouver une bonne bibliothèque Java (idéalement Apache Licensed) pour l'analyse des fichiers .tex, alors je vous suggère d'ouvrir une nouvelle requête d'amélioration dans le Tika JIRA (https://issues.apache.org/jira/browse/TIKA) et demander un analyseur syntaxique basé sur cette bibliothèque.

Source

2011-03-31 22:01:09 Gagravarr

Merci, si je trouve une telle bibliothèque, alors je vais ouvrir un ticket. – nikhil500

Extrait du texte des fichiers .tex en utilisant Tika

Répondre

Questions connexes