2015-10-21 4 views
1

J'ai un document Word. Je dois faire correspondre une section de table ou une section de rubrique particulière à l'aide de GATE. Je pensais qu'il y avait des étapes à partir desquelles nous pouvions d'abord vérifier la taille de la police ou le style de police de l'en-tête, puis faire correspondre le reste du contenu jusqu'au prochain répétition du motif de titre.Analyse du style de police ou du bloc de paragraphe dans GATE

Répondre

2

GATE ne dispose que d'un soutien limité pour MS Word documents fournis par le Apache Tika et Apache POI bibliothèques. Je ne connais pas d'alternative libre ... Nous avons développé notre propre plugin (gate.DocumentFormat) à cet effet dans mon entreprise, mais il n'est pas disponible pour l'extérieur maintenant.

Vous pouvez essayer de convertir vos documents Word en HTML par un autre outil (par exemple, en utilisant directement la MS Word, OpenOffice, docx4j ou autres - essayez google docx to html - vous verrez beaucoup de résultats) et Traitez ensuite les documents HTML dans GATE à la place. Vous verrez tous les formats disponibles dans l'ensemble d'annotations Original markups.

+0

merci @dedek, je vais essayer d'aller de l'avant avec votre suggestion et de revenir vers vous –