2013-07-16 1 views
0

J'utilise le corpus d'opinion MPQA dans lequel les annotations et les documents sont enregistrés dans des fichiers distincts. Les fichiers d'annotation contiennent des décalages de caractères (intervalles d'octets) dans les documents
par exemple. 850.861Correspondance des octets d'une annotation dans un document texte, Python ou Java

string GATE_direct-subjective 
expression-intensity="medium" 
attitude-link="a4" 
nested-source="w, patient" 
intensity="medium" 
polarity="negative" 

Comment puis-je correspondre à ces octets couvre dans le document texte? Je suis reconnaissant pour toute idée! Je préfère utiliser Python mais une solution en Java est également très bien.

+0

On ne sait pas ce que vous entendez par "octet de correspondance s'étend dans les documents texte". Pouvez-vous montrer un exemple de chaîne, un exemple de décalage et un exemple de résultat et expliquer comment tout cela s'accorde? – jogojapan

Répondre

0

Je ne suis pas sûr à 100% que je comprends bien la question, mais si vous avez besoin d'une sous-chaîne et que vous avez des positions de caractères, la solution est simple.

solution Python:

>>> sometext = "Grant D is a great guy." 
>>> character_offset = [0, 7] 
>>> subString = sometext[character_offset[0]:character_offset[1]] 
>>> print subString 
Grant D 
>>> 
Questions connexes