Je veux extraire tous les mots-clés d'un énorme fichier pdf [50MB]? quel module est bon pour analyser de gros fichiers pdf? Je suis préoccupé par la mémoire pour l'analyse de l'énorme fichier & en extrayant presque tous les mots-clés! Ici, je veux genre d'analyse syntaxique SAX [one go parsing] & pas DOM genre de [analogie à XML].quel module est efficace pour analyser un fichier .pdf en une fois? CAM :: PDF ou PDF :: API2
Répondre
Pour lire le texte d'un PDF, nous utilisons CAM::PDF
, et cela a très bien fonctionné. Il n'était pas extrêmement rapide sur certains fichiers plus volumineux, mais la possibilité de gérer de gros fichiers n'était pas mauvaise. Nous en avions certainement quelques-uns qui étaient ~ 100Mb, et qui ont été traités correctement. Si je me souviens bien, nous avons eu quelques problèmes avec 130 Mo sur un Perl 32 bits (Windows), mais nous avions beaucoup d'autres choses en mémoire à ce moment-là. Nous avons regardé PDF::API2
, mais il semblait plus orienté vers la génération de PDF que la lecture d'eux. Nous n'avons pas lancé de gros fichiers dans PDF::API2
, donc je ne peux pas donner de chiffre de référence réel. Le seul inconvénient majeur que nous avons trouvé en utilisant CAM::PDF
est que PDF 1.6 est de plus en plus commun, et cela ne fonctionne pas du tout dans CAM :: PDF pour le moment. Ce n'est peut-être pas un problème pour vous, mais ce pourrait être quelque chose à considérer. En réponse à votre question, je suis à peu près sûr que les deux modules lisent la totalité du PDF source en mémoire sous une forme ou une autre, mais je ne pense pas que CAM::PDF
en construise autant de structures plus complexes. Donc, ni l'un ni l'autre n'est similaire à SAX, mais CAM::PDF
semble être plus léger en général, et peut récupérer une page à la fois, ce qui pourrait réduire la charge pour l'extraction de très gros textes.
- 1. Perl PDF :: API2 et unicode
- 2. Comment diviser un fichier PDF à plusieurs documents en fonction du signet en utilisant PDF :: API2
- 3. Perl CAM :: Mots PDF incorrectement divisés
- 4. Comment utiliser PDF :: API2 pour fusionner plusieurs fichiers PDF en un avec Perl?
- 5. Est-ce que PDF :: API2 prend en charge la lecture de PDF 1.5+ avec XRef compressé?
- 6. Comment mettre à jour les métadonnées PDF avec CAM :: PDF
- 7. Comment utiliser CAM :: PDF :: Annot (module Perl) sans erreur?
- 8. pdf d'analyse en perl
- 9. Comment utiliser les documents PDF 1.6 dans le fichier CAM :: PDF de Perl?
- 10. Convertisseur PDF en PDF
- 11. convertir un fichier donné en PDF
- 12. PDF API2 ne peut pas être mis en œuvre
- 13. convertir n'importe quel fichier en pdf
- 14. comment analyser un grand nombre de PDF
- 15. Comment fusionner plusieurs fichiers PDF en un seul fichier PDF
- 16. fichier pdf avec python
- 17. Signer un fichier PDF
- 18. Parse un fichier pdf
- 19. cfoutput sur un fichier PDF
- 20. pdf analyser le texte en java
- 21. Comment générer une police "sous-ensemble incorporé" à l'aide du module CPAN PDF :: API2
- 22. iText: diviser un PDF en plusieurs PDF (1 par page)
- 23. PDF Bibliothèques pour afficher un document PDF dans WPF
- 24. C# - Placer un PDF dans un autre fichier PDF
- 25. Ajouter PDF à un PDF signé
- 26. Comment générer un fichier PDF téléchargeable avec pdfbox (PDF corrompu)?
- 27. Convertir PDF en PDF/A-1
- 28. Mergy fichiers PDF multiples dans un fichier PDF
- 29. Comment détecter si un fichier est PDF ou TIFF?
- 30. Pdf - MediaBox ou CropBox
avez-vous essayé les modules que vous avez listés dans le titre? L'un ou l'autre a-t-il mieux fonctionné pour vous? – Mat
Non en tant que tel! J'ai essayé avec CAM :: PDF seulement. –
alors pourquoi ne pas essayer l'autre et voir si ça va mieux? – Mat