Remplacez les références de caractères HTML par utf-8 dans un script bash. ā devient

Comment allez-vous traduire un document qui contient les références de caractères suivantes à leurs caractères lisibles dans un script bash?Remplacez les références de caractères HTML par utf-8 dans un script bash. ā devient

&#257; &#225; &#462; &#224; &#275; &#233; &#283; &#232; &#299; &#237; &#464; &#236; &#470; &#472; &#474; &#476; &#252; &#470; &#472; &#474; &#476; &#252;

Ces changements afin de å á ǎ à è é è è ı ı ǐ ì ǖ ǘ ǚ ǜ ü ǖ ǘ ǚ ǜ ü

Source

2009-02-23 Anonymous

stackoverflow permet aux entités HTML. Je pourrais vouloir éditer ça. –

Ma première réponse est d'utiliser sed, si ce sont juste ces entités. Le remplacement direct devrait être possible de cette façon. Si vous voulez que cela fonctionne pour des entités arbitraires, alors je ne peux pas penser à quelque chose de désinvolte (je ne suis pas une personne majeure, malheureusement). –

Si vous avez accès à Perl alors il est relativement simple:

perl -ne 'binmode STDOUT,":utf8";s/&#([0-9]*);/pack("U",$1)/eg;print' \ 
    document.html

Exemple:

#!/bin/bash 
html2utf8() { 
    perl -ne 'binmode STDOUT, ":utf8"; s/&#([0-9]*);/pack("U",$1)/eg; print' 
} 
echo 'testing 1 &#257; 2 &#300; 3 &#275;' | html2utf8

Produit:

testing 1 ā 2 Ĭ 3 ē

Source

2009-02-23 04:53:02 vladr

Oui, j'ai accès à perl donc c'est probablement la façon la plus simple et la plus pratique de le faire. Honnêtement, l'ensemble du projet serait mieux scipted perlée de toute façon –

Si vous êtes à la recherche d'une bash seule façon de le faire, il semble qu'il y ait des solutions dans ce fil: http://forums.gentoo.org/viewtopic-t-820377-view-previous.html?sid=b35246f20410ba95ee048970d01ac6b3

Source

2010-07-18 03:16:59 Menachem

Remplacez les références de caractères HTML par utf-8 dans un script bash. ā devient

Répondre

Questions connexes