Correspondance des octets d'une annotation dans un document texte, Python ou Java

J'utilise le corpus d'opinion MPQA dans lequel les annotations et les documents sont enregistrés dans des fichiers distincts. Les fichiers d'annotation contiennent des décalages de caractères (intervalles d'octets) dans les documents
par exemple. 850.861Correspondance des octets d'une annotation dans un document texte, Python ou Java

string GATE_direct-subjective 
expression-intensity="medium" 
attitude-link="a4" 
nested-source="w, patient" 
intensity="medium" 
polarity="negative"

Comment puis-je correspondre à ces octets couvre dans le document texte? Je suis reconnaissant pour toute idée! Je préfère utiliser Python mais une solution en Java est également très bien.

Source

2013-07-16 user2587333

On ne sait pas ce que vous entendez par "octet de correspondance s'étend dans les documents texte". Pouvez-vous montrer un exemple de chaîne, un exemple de décalage et un exemple de résultat et expliquer comment tout cela s'accorde? – jogojapan

Je ne suis pas sûr à 100% que je comprends bien la question, mais si vous avez besoin d'une sous-chaîne et que vous avez des positions de caractères, la solution est simple.

solution Python:

>>> sometext = "Grant D is a great guy." 
>>> character_offset = [0, 7] 
>>> subString = sometext[character_offset[0]:character_offset[1]] 
>>> print subString 
Grant D 
>>>

Source

2013-07-16 17:47:07 GrantD71

Correspondance des octets d'une annotation dans un document texte, Python ou Java

Répondre

Questions connexes