2010-11-17 9 views
3

J'ai été chargé d'extraire des informations structurées de centaines de documents lisibles par l'homme (principalement MS Word) et de les mettre dans une base de données. Les données sont à peu près intégrées dans les tableaux tout au long du document, mais il y a beaucoup de texte entre les tableaux et, bien que la structure des documents soit très similaire, il y a quelques différences. Les documents sont changés assez souvent (nous obtenons une version mise à jour tous les quelques mois)Grattage d'informations structurées à partir de centaines de documents Word?

Jusqu'à présent, la seule option viable que je peux penser est de parcourir manuellement tous les documents et insérer/mettre à jour les informations, mais je pensais que je demander ici si quelqu'un pense qu'il est possible de gratter les documents d'une manière ou d'une autre?

Oh, et les données doivent être assez correct ...

+0

Dans quel format sont les fichiers? .doc, .docx, ...? –

+0

@ 0xA3 un mélange de doc et docx principalement, mais aussi quelques fichiers PDF – Andreas

+0

En mettant les fichiers PDF de côté pour le moment, est-ce que cela aiderait à copier toutes les tables de tous les documents Word dans un seul document? – JasonPlutext

Répondre

2

Je l'ai fait un travail similaire (sans tables bien) en utilisant un converter from RTF to FO.

Vous avez convertir docs en RTF, puis en FO, ce qui vous donne une belle structure XML du document. Vous pouvez ensuite facilement l'analyser et gratter les données.

Questions connexes