Comment extraire les données d'un document Word en utilisant Perl?Comment puis-je extraire des données dans un document Word en utilisant Perl?
Répondre
Sous Windows, vous devriez utiliser les interfaces COM pour accéder à la fonctionnalité Word.
Si vous voulez le faire multiplate-forme, pensez à exécuter "catdoc" ou libwv.
Les documents Word ne sont plus des fichiers plats. Trouver un .docx, le renommer avec une extension .zip, et vous pouvez l'ouvrir et fouiller à l'intérieur pour avoir une idée de comment les choses sont disposées. Je serais généralement d'accord que Microsoft a fourni des moyens de le faire déjà.
Si vous n'êtes pas sur Windows, je pense que le meilleur chemin pourrait être de le convertir en premier. Si vous n'utilisez pas Windows et n'avez pas accès à Win32::OLE, vous pouvez utiliser OpenOffice to convert the documents.
Vous pouvez boucler le script dans le lien vers votre programme Perl. Bien que le lien commence par PDF si vous lisez dessus, vous pouvez le convertir en texte. Voir également this stackoverflow post about converting doc and docx files.
Pouvez-vous me donner un exemple simple de la lecture d'un document Word et de l'impression de ses données sur l'invite de commande ... – User1611
use Win32::OLE;
use Win32::OLE::Enum;
$document = Win32::OLE -> GetObject($ARGV[1]);
open (FH,">$ARGV[0]");
print "Extracting Text ...\n";
$paragraphs = $document->Paragraphs();
$enumerate = new Win32::OLE::Enum($paragraphs);
while(defined($paragraph = $enumerate->Next()))
{
$style = $paragraph->{Style}->{NameLocal};
print FH "+$style\n";
$text = $paragraph->{Range}->{Text};
$text =~ s/[\n\r]//g;
$text =~ s/\x0b/\n/g;
print FH "=$text\n";
}
volé à here
- 1. Comment puis-je créer un document Word en utilisant Python?
- 2. Comment extraire des données du service Web dans VBA-Word?
- 3. Comment extraire des données en utilisant regex à partir de la feuille Excel en Perl
- 4. Exporter un document Word au format PDF en utilisant iTextSharp
- 5. Comment insérer un résultat SQL Server plusieurs fois dans un document Word en utilisant VB
- 6. Générer un document word en C#
- 7. Comment puis-je ajouter des notes de fin à un document Word en utilisant Powershell?
- 8. Comment puis-je ouvrir un document Word en lecture seule à partir de Perl?
- 9. Comment extraire un titre HTML avec Perl?
- 10. Insérer par programme un document Word dans un document existant (Word 2007)
- 11. Comment puis-je récupérer chaque page de texte dans un document Word séparément (en utilisant .NET)?
- 12. Remplir des valeurs dans un document Word avec PHP
- 13. Exporter vers un document Word en C#
- 14. VB.NET Ouvrir un document Word
- 15. Comment trouver des données en double dans un document XML en utilisant XQuery?
- 16. Insérer un bouton dans le document Word
- 17. Pourquoi le nombre de pages dans un document Word est-il différent en Perl et Word VBA?
- 18. Comment ajouter à un document Word avec des macros VBA
- 19. Comment connecter/extraire des données d'une base de données MYSQL en utilisant des objets en PHP?
- 20. Comment sortir un document binaire basé sur un document HTML en utilisant des filtres en Java
- 21. Comment ajouter un LINQ sérialisé à des entités SQL dans un document Word 2007
- 22. lecture document word
- 23. En utilisant VB.net extraire des données XML à partir
- 24. Comment extraire du texte RTF/HTML à partir d'un document Word?
- 25. Insérer du code HTML dans un document Word OpenXML (.Net)
- 26. Comment puis-je extraire des abréviations à partir d'un fichier en utilisant Perl?
- 27. Comment générer un document Word (doc, docx) dans ASP.NET?
- 28. Comment insérer par programme des commentaires dans un document Microsoft Word?
- 29. Stockage de métadonnées arbitraires dans un document Microsoft Word
- 30. PHP - Obtenir le nombre de pages dans un document Word
** ** Qu'est-ce que les données particulières que vous voulez extraire? Sur quelle plateforme? Avez-vous une copie de Word installée? S'agit-il d'un travail par lots ou le script va-t-il être appelé par un serveur Web? Le titre et le corps de votre question sont identiques, indiquant que vous n'avez pas beaucoup réfléchi à la formulation de votre question. –
Aussi, voir http://stackoverflow.com/questions/1110409/how-can-i-programmatically-convert-word-doc-or-docx-files-into-text-files/1110626#1110626 si vous êtes sur Windows et peut utiliser 'Win32 :: OLE' et tout ce que vous voulez, c'est le texte dans le document. –
suis en utilisant windows et je veux extraire les abréviations trouvées dans ce document Word .... c'est ce que ma tâche est ... – User1611