Je voulais analyser le fichier PDF en python. J'ai vu des exemples avec PDFMiner qui ne pouvaient pas expliquer mes besoins.Extraction de données à partir d'un PDF avec un en-tête particulier en python
Par exemple, si je veux analyser un CV, il contient divers champs comme Résumé, Expérience et Loisirs.
Je suis intéressé à extraire seulement l'expérience et ce champ d'expérience sera à la première place ou à la deuxième place ou à n'importe quel endroit, j'ai besoin d'identifier où le champ d'expérience se trouve et doit extraire les données.
Comment est-ce que je peux faire ceci?
Qu'est-ce qui a été fait jusqu'à présent et qu'est-ce qui ne va pas? –
Est-ce faisable à faire, en extrayant des données avec en-tête. Ou alors, est-ce une idée de le faire –
Dans le cas général, il ne peut pas être fait (à moins de rendre le fichier PDF et l'alimentation des résultats dans un système OCR). Le format PDF est un format d'affichage et il n'est pas garanti qu'il y ait une structure interne pour définir les champs, sans parler d'une structure normalisée. Si vous avez un tas de fichiers PDF tous générés par exactement la même pile de logiciels, vous pourrez peut-être les analyser comme un cas particulier (qui sera différent des cas spéciaux des autres). – nigel222