2010-12-04 2 views
1

Puis-je ouvrir des formats de fichier avec Word interop que Microsoft Word lui-même prend en charge?Lire des documents dans .NET

Ma tâche semble très simple, j'ai besoin de lire du texte, uniquement du texte, à partir de tout type de documents couramment utilisés (pour comparer les documents en fonction du contenu). Y at-il un moyen que je peux faire cela plus facilement que le Word Iterop mentionné ci-dessus? Existe-t-il des bibliothèques libres pour ce faire? Ou pour ouvrir tous les types de documents (.doc, .docx, .pdf, .rtf, docs openoffice, etc.)? Je suis occupé à chercher, mais je n'ai pas encore trouvé beaucoup de solutions, et je ne peux pas me permettre d'étudier les spécifications de 800 pages de tous les formats.

P.S .: Manipuler pdf séparément est OK, en plus d'avoir des bibliothèques pour tous les types.

Répondre

0

Je travaille sur un nouveau cadre appelé Toxy. Le but est d'extraire des données/textes de divers documents comme ce que vous avez mentionné. La première version sera disponible au début de l'année prochaine (peut-être février). Vous pouvez trouver une implémentation ici: https://github.com/tonyqus/toxy. Mais ce n'est pas prêt pour le moment.

Questions connexes