2010-03-15 5 views
-4

J'ai un fichier Unicode (nomenclature FFFE little-endian UTF-16) qui contient des rangées de champs séparés par des tabulations.Caractère unicode Tab/LF/CR

Lire Splitting unicode (I think) using .split in ruby, je vais utiliser le split Ruby (fichier à lignes, puis ligne à des champs).

BTW, quel est le charbon Unicode:

  • LF
  • CR
  • Tab

Merci!

+1

Est-ce vraiment votre question, quels sont les points de code pour ces trois caractères en Unicode? –

+2

Je suis d'accord, est-ce vraiment la question? Cela aurait pu être répondu avec une vérification rapide sur les internets, mais pour référence future: http://www.unicode.org/charts/#symbols et en particulier http://www.unicode.org/charts/PDF/U0000. pdf et http://en.wikipedia.org/wiki/Basic_Latin_Unicode_block –

+0

Je demande à la fois, le caractère unicode, et le code unicode dans la syntaxe Ruby. Supposons que blob (blob = Record.first.file_attached) stocke les données brutes UTF-16. then: rows = blob.split ("\ u000D") rows.size return 1 si je fais un u8rows = Iconv.conv ("utf-8", "utf-16le", blob) .split (" \ n ") u8rows.size est 232 ma question est la suivante: quel est le unicode CR/LF charbon pour diviser un blob FFFE UTF-16, en Ruby – ohho

Répondre

4

Unicode TAB est u0009. LF est u000a et CR est u000d

Identique à ASCII en réalité.

+2

Tout simplement parce que les 256 premiers points de code de Unicode sont les mêmes que en latin-1. Qui à son tour utilise ASCII pour le premier 128. – Joey

Questions connexes