Comment puis-je extraire du texte à partir de fichiers pdf ou Word (supprimer les fichiers en gras, les images et autres formats de texte enrichi) en C#?Extraction de texte à partir de fichiers pdf et Word
Répondre
Vous pouvez utiliser les filtres conçus pour/utilisés par le service d'indexation. Ils sont conçus pour extraire le texte brut de divers documents, ce qui est utile pour rechercher dans un document. Vous pouvez l'utiliser pour les fichiers Office, PDF, HTML et ainsi de suite, essentiellement tout type de fichier qui a un filtre. Le seul inconvénient est que vous devez installer ces filtres sur le serveur, donc si vous n'avez pas un accès direct au serveur, cela peut ne pas être possible. Certains filtres sont pré-installés avec Windows, mais d'autres, comme le PDF, doivent être installés. Pour une mise en œuvre C#, consultez cet article: Using IFilter in C#
Pour PDF avez-vous un coup d'oeil à TallPDF
Vérifiez aussi celui-ci: http://www.codeproject.com/KB/files/PDF_to_TEXT.aspx
modèle Utiliser l'objet Word, il est le seul moyen fiable car format Word n'est pas ouvert et varient d'une version à.
Mais comment? C'est une réponse inutile sans un échantillon de code. – KyleM
PDF:
Vous avez plusieurs options.
pdftotext:
Téléchargez le XPDF utilities. Dans le fichier .zip, il existe plusieurs utilitaires de ligne de commande. L'un est pdftotext(.exe)
. Il peut extraire tout le contenu textuel d'un fichier PDF bien agencé. Saisissez pdftotext -help
pour en savoir plus sur ses paramètres de ligne de commande.
Ghostscript:
Installer latest version of Ghostscript (v.8.71). Ghostscript est un interpréteur PostScript et PDF. Vous pouvez l'utiliser pour extraire le texte d'un PDF ainsi:
gswin32c.exe^
-q^
-sFONTPATH=c:/windows/fonts^
-dNODISPLAY^
-dSAFER^
-dDELAYBIND^
-dWRITESYSTEMDICT^
-dSIMPLE^
-f ps2ascii.ps^
-dFirstPage=3^
-dLastPage=7^
input.pdf^
-dQUIET
Ce sera le texte de sortie contenu dans les pages 3-7 de input.pdf
à stdout. Vous pouvez rediriger cela vers un fichier en ajoutant > /path/to/output.txt
à la commande. (Assurez-vous que le programme utilitaire PostScript ps2ascii.ps
est présent dans votre sous-répertoire de Ghostscript lib
.)
Si vous omettez le paramètre -dSIMPLE
, la sortie de texte sera devinant les sauts de ligne et des espacements de mots. Pour plus de détails, consultez les commentaires dans le fichier ps2ascii.ps
lui-même. Vous pouvez même remplacer ce paramètre par -dCOMPLEX
pour obtenir des informations supplémentaires sur le formatage du texte.
XPDF fonctionne mieux que tout ce que j'ai trouvé – chrisfs
Vous pourriez vouloir regarder PDFBox. Voici un lien vers une page de projet de code vous montrant comment l'utiliser en C# ainsi que d'autres commentaires utiles.
http://www.codeproject.com/KB/string/pdf2text.aspx
Comme pour Word la suggestion d'utiliser le mot modèle d'objet est probablement le plus précis.
Docotic.Pdf library peut être utilisé pour extraire du texte à partir de fichiers PDF.
La bibliothèque peut extract plain text and text with formatting. En outre, un collection of words ou des caractères avec des rectangles englobants peuvent être récupérés à l'aide de l'API de la bibliothèque.Clause de non-responsabilité: Je travaille pour le vendeur de la bibliothèque.
- 1. Extraction de texte à partir de fichiers PDF en C#
- 2. Nettoyage et extraction de données à partir de fichiers texte
- 3. pdf extraction de texte
- 4. Extraction de titres à partir de fichiers PDF?
- 5. Extraction de texte d'un document PDF - C#
- 6. Extraction de texte d'un fichier PDF
- 7. Extraction de texte de la parole à partir de fichiers vidéo et audio
- 8. extrait du texte à partir de fichiers pdf
- 9. Extraction des informations démographiques et de contact à partir de fichiers texte non structurés
- 10. Extraction de texte à partir d'un PDF en utilisant JBoss Richfaces
- 11. Extraction de texte à partir de HTML (Perl)
- 12. Extraction de noms à partir de texte (Java)
- 13. Extraction de MimeType à partir de shell32
- 14. Extraction de fichiers .htm à partir de SSRS
- 15. Extraction de graphiques à partir de sites explorés (fichiers ARC)
- 16. Extraction de métadonnées XMP à partir de fichiers EPS
- 17. Toplink et Java stockant des fichiers word ou pdf
- 18. Indexation de documents Word et PDF avec Sphinx
- 19. Java - PDFBox - Extraction de texte
- 20. l'extraction de texte à partir de fichiers MS Word en python
- 21. Extraction de texte de PDF: PDFLib vs PDF extrait vs pdf2xml
- 22. extraction de données à partir d'un plist
- 23. Texte brut à partir de PDF à l'aide d'Air/ActionScript
- 24. Saisir du texte à partir de fichiers
- 25. Lecture de texte à partir de Pdf dans Asp.net
- 26. Extraction de données à partir de SQL et écriture dans un fichier texte
- 27. Recherche et extraction de données à partir d'Excel
- 28. Extraire les métadonnées à partir de vieux fichiers Word (à partir de 2.0)
- 29. Validation des fichiers PDF (Image + Texte PDF) validation
- 30. Générer des fichiers PDF à partir de asp.net mvc
C'est exactement ce dont j'avais besoin. Merci! –