J'ai un document assez simple (les stratégies gouvernementales pour le mandat) avec des titres, du texte normal et des puces (qui sont les stratégies qu'ils cherchent à implémenter).Extrait seulement des points de puces à partir de PDF en utilisant R ou Python
Je peux lire et extraire des pages ou des titres du .pdf
et le convertir en .txt
mais je voudrais seulement garder le texte (les paragraphes entiers) à l'intérieur des puces, ce qui m'intéresse. estime qu'il y a un moyen de le faire car ils peuvent être identifiés par le point de balle lui-même probablement.
Existe-t-il un moyen assez simple de faire cela en R et/ou en Python? Je ne suis pas familier avec d'autres langages de programmation ou méthodes d'analyse.
EDIT: Juste rapidement converti le texte de base au format HTML (en utilisant https://wordtohtml.net) sur une page et il semble tourner les points à <li>
que je devine serait assez facile à analyser. Existe-t-il un moyen facile et rapide de convertir l'ensemble du document de 262 pages au format HTML en conservant le format <li>
probablement dans R/python? Ou connaissez-vous une méthode PDF - préférable car il serait au moins une étape de moins pour le faire - pour mon problème?
Avez-vous regardé le paquet 'pdftools'? Il a une fonction 'pdf_text' qui devrait au moins vous donner le texte brut. Vous devrez voir si la sortie est telle que vous pouvez décaper les titres et le texte normal. Regex pourrait vous y parvenir en fonction de la cohérence du format. – Mako212
Excellente idée. Oui, j'ai le texte brut. Ci-dessous un extrait: '" (...) passarão a estar enregistrementspolitiquespúblicas que permitam: \ n • Inverser une tendance de perte de rendu pour les familles, les enfants, les personnes handicapées et les retraités; "' '\ n' indique une nouvelle ligne. En supposant qu'il soit parfaitement écrit, ce que je veux est entre '' '' et '; \ n', car une phrase menant à des points de balle se termine par': \ n'. Mais lors de la création de la trame de données, j'ai obtenu 1 ligne par page. Je vais devoir subdiviser chaque puce en sa propre ligne après. –
On dirait que vous êtes sur la bonne voie. Vous devriez être en mesure de sélectionner des chaînes qui correspondent au modèle '• .....; \ n' avec Regex si vous avez d'autres chaînes mélangées dans – Mako212