2011-04-01 4 views
2

J'expérimente avec pdftohtml mais je trouve qu'il a parfois de la difficulté à analyser correctement les tables. Il regroupe le texte de deux colonnes dans une seule cellule, ce qui rend mes tentatives d'analyse des données résultantes futiles! Notez que cela ne se produit qu'une ou deux fois dans un fichier PDF et qu'il est tout à fait imprévisible.Alternatives à pdftohtml

J'ai essayé les dernières versions de pdftohtml (y compris la version 0.40a beta), mais en vain.

Quelqu'un connaît-il des équivalents compatibles avec Linux qui pourraient valoir la peine d'être essayés?

Merci,

Sam

+0

Avez-vous soumis un rapport de bug? Les fichiers PDF sont notoirement difficiles à analyser, et les outils Poppler ont pris énormément de temps. Votre meilleur pari pourrait être de voir ce que vous pouvez faire pour aider en amont. – efrey

Répondre

0

pdf2htmlEX est le meilleur pdf à html J'ai vu.

installer: brew install pdf2htmlex

je devais utiliser brew install -f pdf2htmlex

exemple d'exécution: pdf2htmlEX --embed cfijo --dest-dir 'your-directory' your.pdf

qui crée un nouveau répertoire avec les images .html et ref'd