En utilisant iTextSharp, je suis en train d'extraire le texte à partir du fichier PDF suivant:iTextSharp insérant des espaces dans les mots d'un fichier pdf
https://www.treasury.gov/ofac/downloads/sdnlist.pdf
Voici le code:
var currentText = PdfTextExtractor.GetTextFromPage(pdfReader, 2, new SimpleTextExtractionStrategy());
if (currentText.Length > 0)
{
var capture = new Capture();
capture.Text = currentText;
// write the results to the DB, if any data was found
_dataService.AddCapture(capture);
}
aide SimpleTextExtractionStrategy, les résultats sont écrits dans la base de données avec des myriades d'espaces indésirables dans les mots. Les premières lignes de la page 2 écriture comme:
BUREAU DE L'ACTIF ÉTRANGERS DE CONTRÔLE Specially Designated RESSORTISSANTS & BLOQUE Personnes 3 Février, 2017-2 - A.A. RASPLET DANS; un .k. a. AL MAZ -AN TEY MSDB; alias . AL MAZ -ANTEY PV O 'AI R DÉFENSE' CO NCERN SYSTÈME DE CONCEPTION S BUREAU DE CONCEPTION OAO 'OPEN JO INT -STOCK SOCIÉTÉ IMENI ACADEMIC IAN A.A. RASPLETIN; alias. GO LOVNOYE SISTEMN OYE KONS TRUKT ORSKOY E BYURO OUVERT J OIN T-S TOCK C OMP ANY DE ALMAZ -AN TEY PVO C ONCERN I MEN I ACADÉMICIEN A .A. TIN ROULEAU; a.k. une. JO INT EN STOCK C OMPANY A LMA Z-AN TEY AI R DÉFENSE CON CERN MA IN SYSTÈME M DESIGN BUREAU NOMMÉ PAR ACADE MICIAN A.A.
Voir par exemple le mot « JO INT » dans les 4e & 6e lignes, et le mot « CON CERN » dans la 2ème dernière ligne. Ces types d'espaces se produisent dans l'ensemble des résultats. Cela rendra impossible l'interrogation du texte, malheureusement.
Est-ce que quelqu'un a une idée de ce que cela fait et comment résoudre ce problème?
Je vous ai vu autour de ces parties et vous êtes certainement le roi de ce sujet. Merci pour votre grande sagesse et votre aide! – Stpete111