J'utilise le corpus d'opinion MPQA dans lequel les annotations et les documents sont enregistrés dans des fichiers distincts. Les fichiers d'annotation contiennent des décalages de caractères (intervalles d'octets) dans les documents
par exemple. 850.861Correspondance des octets d'une annotation dans un document texte, Python ou Java
string GATE_direct-subjective
expression-intensity="medium"
attitude-link="a4"
nested-source="w, patient"
intensity="medium"
polarity="negative"
Comment puis-je correspondre à ces octets couvre dans le document texte? Je suis reconnaissant pour toute idée! Je préfère utiliser Python mais une solution en Java est également très bien.
On ne sait pas ce que vous entendez par "octet de correspondance s'étend dans les documents texte". Pouvez-vous montrer un exemple de chaîne, un exemple de décalage et un exemple de résultat et expliquer comment tout cela s'accorde? – jogojapan