Simplement, j'ai besoin d'extraire du texte de plusieurs fichiers PDF (beaucoup en fait) afin d'analyser le contenu avant de le coller dans une base de données SQL. J'ai trouvé quelques librairies C# libres qui fonctionnent (la meilleure utilise iTextSharp), mais il y a énormément d'erreurs de formatage et certains caractères sont brouillés et beaucoup de fois il y a des espaces ('') PARTOUT - à l'intérieur des mots, entre chaque lettre, d'énormes blocs occupant plusieurs lignes, tout cela semble un peu aléatoire.Extraction de texte à partir de fichiers PDF en C#
Existe-t-il un moyen facile de le faire que je suis complètement négligent (très probable!) Ou est-ce une tâche un peu ardu qui implique la conversion des valeurs d'octets extraites en lettres fiables?
Cheers,
Duncan
Voir aussi http://stackoverflow.com/q/10982156/292060 – goodeye