2016-10-15 1 views
0

Je voudrais implémenter la prise en charge de ces types de fichiers dans mon application, mais pour cela j'ai besoin de quelque chose qui me permettra d'extraire du texte brut de ces types de fichiers.Le meilleur moyen d'extraire du texte à partir de formats de documents courants (principalement rtf, doc, docx, pdf, epub, mobi) qui fonctionne avec UWP?

Je recherche une solution qui ne nécessite aucune bibliothèque supplémentaire, ou une bibliothèque tout-en-un/paquet NuGet. J'ai jeté un oeil à GemBox.Document mais cela ne semble pas fonctionner avec les projets UWP.

Quelle serait la meilleure option pour cela?

Répondre

1

Je recherche une solution qui ne nécessite aucune bibliothèque supplémentaire ou une bibliothèque tout-en-un/paquet NuGet.

Il n'existe pas de package de ce type.

Dans le standard de l'application UWP on peut lire le fichier .rtf avec le Rich edit box, il y a exemple de code dans ce document montre comment modifier, charger et enregistrer un fichier Rich Text Format (.rtf) dans un RichEditBox.

Pour .doc, .docx, alias. Document MS Word, en particulier la version après 2007, il utilise Open-XML-SDK et actuellement il ne supporte pas la plate-forme UWP.

Pour les documents .pdf, vous pouvez vous référer au fil de @Franklin Chen: [UWP]PDF Viewing on a Windows Universal App.

Pour les fichiers epub, il s'agit d'un fichier archive ZIP, pour analyser ce fichier, vous pouvez vous référer au fil: [WP8.1][C#] How can i read an EPub file in c# on Windows Phone!?.

Pour les fichiers mobi, désolé je n'ai pas trouvé d'informations utiles pour le développement pour le moment, je ne peux que suggérer maintenant de le convertir en fichier pdf avec un service en ligne gratuit.

Mais en un mot, puisque Open-XML-SDK ne supporte pas actuellement la plate-forme UWP. Il n'est pas possible de trouver une solution ou un package pour l'application UWP standard. Vous pouvez essayer de trouver un tel service Web et implémenter ce service dans votre application, ou vous pouvez utiliser des bibliothèques commerciales qui peuvent lire des documents dans tous ces formats.