Je dois mettre à jour un dictionnaire bilingue écrit en Writer en commençant par analyser toutes les entrées dans leurs parties, par ex.comment tokenize/analyser/rechercher et remplacer le document par la police et le style de police dans LibreOffice Writer?
- mot principal (1 police, gras)
- équivalent étranger translittération (police 1, italique)
- équivalent étranger (police 2, gras)
- partie du discours (police 1, italique)
Chaque ligne du document est le mot principal suivi des parties énumérées ci-dessus, chacune étant séparée par un espace ou une ponctuation.
J'ai besoin d'automatiser le processus de marche à travers tout le fichier, ligne par ligne, et de placer un séparateur entre chaque partie, en ignorant les espaces et la ponctuation, de sorte que je peux importer en masse dans un fichier Calc. En d'autres termes, "chaque partie" est une séquence de caractères (ignorant les espaces et la ponctuation) qui ont la même police ET le même style de police.
J'ai essayé la fonctionnalité de recherche standard & Remplacer, et l'extension AltSearch, mais aucun d'entre eux ne peut terminer la tâche. Le principal problème est que je ne suis pas capable d'écrire une requête de recherche qui dit:
Recherche: caractères consécutifs avec la même police et font_style, ignorent les espaces et la ponctuation
Remplacer: terme trouve au-dessus + " délimiteur "
Des suggestions comment je peux écrire un script pour cela, ou si un outil existant peut résoudre le problème?
Merci!
Pseudo code pour l'effet désiré:
var delimiter = "|"
Go to beginning of document
While not end of document do:
var $currLine = get line from doc
var $currChar = get next character which is not space or punctuation;
var $font = currChar.font
var $font_style - currChar.font_style (e.g. bold, italic, normal)
While not end of line do:
$currChar = next character which is not space or punctuation;
if (currChar.font != $font || currChar.font_style != $font_style) { // font or style has changed
print $delimiter
$font = currChar.font
$font_style - currChar.font_style (e.g. bold, italic, normal)
}
end While
end While
La décompression du fichier .odt et l'extraction du fichier .xml était une suggestion utile! Je ne savais pas .odt était un format zip. – kaanch