2010-07-20 2 views
-1

Existe-t-il un bon Librateur de traitement de documents, en C ou en Python? J'essaie d'analyser des chaînes de documents - PDF, Word Doc/Docx, Excel xls/x, PPT, ODF, et aussi des formats Mac.N'importe quelle bibliothèque de lecture de documents multi-format pour Python/ou C?

Merci de recommander Des solutions qui fonctionneraient également dans l'environnement Linux/Unix.

+0

Je commencerais ici: [C à l'aide d'analyse syntaxique strtok et sscanf] (http://www.google.com/search?hl=en&q=C+text+parsing+sscanf + et + strtok) –

+0

Je suis à la recherche d'un lecteur multi-document lib .. ne pas écrire à partir de zéro dans C .. Clibs peuvent facilement exportés vers Python alors c'est pourquoi je suis à la recherche. –

+0

Pouvez-vous expliquer pourquoi downvote? –

Répondre

0

Pour everone la recherche, je trouve la bibliothèque analyse de documents tika le plus complet. Ce n'est pas C mais son java et assez rapide (quand ça marche à l'intérieur de Nailgun).

tika.apache.org

Questions connexes