2016-06-07 5 views
1

Je voulais analyser le fichier PDF en python. J'ai vu des exemples avec PDFMiner qui ne pouvaient pas expliquer mes besoins.Extraction de données à partir d'un PDF avec un en-tête particulier en python

Par exemple, si je veux analyser un CV, il contient divers champs comme Résumé, Expérience et Loisirs.

Je suis intéressé à extraire seulement l'expérience et ce champ d'expérience sera à la première place ou à la deuxième place ou à n'importe quel endroit, j'ai besoin d'identifier où le champ d'expérience se trouve et doit extraire les données.

Comment est-ce que je peux faire ceci?

+0

Qu'est-ce qui a été fait jusqu'à présent et qu'est-ce qui ne va pas? –

+0

Est-ce faisable à faire, en extrayant des données avec en-tête. Ou alors, est-ce une idée de le faire –

+0

Dans le cas général, il ne peut pas être fait (à moins de rendre le fichier PDF et l'alimentation des résultats dans un système OCR). Le format PDF est un format d'affichage et il n'est pas garanti qu'il y ait une structure interne pour définir les champs, sans parler d'une structure normalisée. Si vous avez un tas de fichiers PDF tous générés par exactement la même pile de logiciels, vous pourrez peut-être les analyser comme un cas particulier (qui sera différent des cas spéciaux des autres). – nigel222

Répondre

1

Il y a 2 approches viables pour extraire les données sur le terrain:

  1. Recherche pour certains mots clés prédéfinis, comme Experience pour obtenir son emplacement. Recherchez ensuite le mot clé de la section suivante (Hobbies), puis déterminez simplement les coordonnées de la partition de texte entre ces deux sections et extrayez ce texte à partir de cet emplacement. Si les PDF sont générés en utilisant le même générateur, vous pouvez simplement trouver les coordonnées de la section Experience et extraire juste le texte du même endroit à chaque fois. (Plus facile) Il suffit de convertir toute la page en texte, puis d'analyser le texte généré en utilisant la recherche par sous-chaîne ou les expressions régulières. Ce sera le moyen le plus simple et le plus simple que tout le travail concernant le format PDF repose sur l'outil spécialisé