Je suis un nouveau venu en Python, donc ma question pourrait être stupide, mais même si je lisais beaucoup de sujets, je n'ai pas trouvé de réponse à ma question.Lire des chaînes Unicode "crues" en Python
J'ai un document source mixte qui contient des formats de texte html, xml, latex et autres et que j'essaie d'obtenir dans un format latex seulement. Par conséquent, j'ai utilisé python pour reconnaître les différentes commandes comme des expressions régulières et les remplacer par la commande latex appropriée. Tout a bien fonctionné jusqu'à présent.
Maintenant, il me reste quelques signes Unicode "de type brut", tels que les lettres grecques. Malheureusement, il est sur le point de faire beaucoup à la main. Par conséquent, je cherche un moyen de le faire de la manière intelligente aussi. Y a-t-il un moyen pour Python de les reconnaître/les lire? Et comment puis-je dire à Python de reconnaître/lire par ex. Pi écrit comme une lettre grecque?
Un exemple minimal du code que j'utilise est:
fh = open('SOURCE_DOCUMENT','r')
stuff = fh.read()
fh.close()
new_stuff = re.sub('READ','REPLACE',stuff)
fh = open('LATEX_DOCUMENT','w')
fh.write(new_stuff)
fh.close()
Je ne suis pas sûr que ce soit une information importante ou non, mais je suis en utilisant Python 2.6 en cours d'exécution sur Windows.
Je serais vraiment heureux, si quelqu'un pourrait être en mesure de me donner un indice, au moins où trouver l'information correspondante ou comment cela pourrait fonctionner. Ou si je me trompe complètement, et Python ne peut pas faire ce travail ...
Merci beaucoup d'avance.
Cheers,
Britta
Veuillez donner un exemple pour les "panneaux Unicode de type brut" dont vous parlez. Je suis sûr que personne dans le monde n'a utilisé ou entendu ce terme auparavant. –
Que voulez-vous dire par «reconnaître»? Python est tout à fait capable de gérer les chaînes Unicode, mais vous n'expliquez pas ce que vous voulez en faire, et ce qui ne fonctionne pas pour le moment. –
Est-ce que le latex n'aime pas les caractères Unicode? Si oui, [cette question] (http://stackoverflow.com/questions/219853/entering-unicode-characters-in-latex) pourrait aider. –