|
|
转载请注明文章出处:https://itlanyan.com/string-unicode-utf8-converter/
8 s: C ^! r0 P$ y0 c9 P- ^! K% V% B想知道某个字符串的UTF8编码,图方便打算使用在线工具。坑爹的是,号称“UTF8汉字互转”的网页几乎全是字符串和unicode码点互转,并不提供与UTF8编码互转功能。没搞懂unicode码点(code point)和UTF8编码的关系,还大言不惭的说UTF8编码,真让人无语。
3 Q+ E- d. F( O% N* g. ~) ]3 C
% n( ?- h- L& Q0 C8 j, W9 f1 V: n$ `% _% ~7 d' {# D# r. W
4 e; F' i% M) W. N' y
3 Z$ d' Z. b Y1 d
- S$ I# [. [" F3 y5 y字符、字节和字节序,unicode和UTF8编码,是理解字符编码重要的概念,详情可查看本人之前博文文件和字符编码。本文讨论unicode和UTF8之间的转换,先简要介绍两个概念:unicode是将字符与码点(code point,一个整数)一一对应的编码方案;码点通常用\uXXXX或者U+XXXX的方式表示,XXXX是码点的十六进制;UTF8是unicode的一个具体编码方案,规定字符存储的方式;UTF8编码字节数可变,不存在大小端问题,互联网通信中常采用此种编码方式。8 j4 f6 N6 |5 Y, A/ o
回顾一下那成片的“汉字UTF8编码互转”网页所做的事情。以“中国”为例,两个汉字码点分别为20013和22269,十六进制表示4E2D 56FD,UTF8编码E4 B8 AD E5 9B BD。随手打开搜索结果中的http://www.ip138.com/utf8/,输入“中国”,点击“转换UTF-8”按钮,下方出现码点的十六进制编码4E2D 56FD(&#x可以理解为十六进制的前缀0x),并非UTF8编码。. q; S6 V/ O8 N: z3 D2 z
JavaScript的String对象有charCodeAt和codePointAt(兼容性不如charCodeAt)方法。根据这个函数,网页的转换工作可用如下代码实现:, y( d8 b( [0 r9 r# R
function encode(str) {
8 O' c0 n9 |" D+ i var result = '';
) d3 ]8 b" A# G var len = str.length;" |2 q9 X5 n G) ^/ o. L. R
for (var i = 0; i 调用encode(“中国”)或者其他字符串,将得到每个字符对应码点的十六进制。但这不是字符串的UTF8编码!
- F* Q- @ r. k3 c, O( R% {要拿到UTF8编码,需要在码点的基础上多走一步。先回顾unicode码点与UTF8的转换关系:
' j: }& V% c3 B| unicode码点(十六进制)[/td]UTF-8(二进制) | | 0000 0000-0000 007F | 0xxxxxxx | | 0000 0080-0000 07FF | 110xxxxx 10xxxxxx | | 0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx | | 0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx | 根据这个表,结合charCodeAt函数,可以写出字符串到UTF8编码的函数:7 _. i4 h; @& ~+ V0 O$ J- d
// 获取字符串的utf8字节流* F8 a) ]* [) n" `1 ^
function getUTF8Bytes(str) {
, _5 ~* h6 T& |: a0 p" B var bytes = [];
8 J5 P$ o, l+ c$ L: L% c' R var len = str.length;
5 ]5 H3 B& B6 E6 K5 n) F for (var i = 0; i = 0x10000 && code > 18) | 0xf0); // 第一个字节" n1 j: S3 b* z7 B. x5 f
bytes.push(((code >> 12) & 0x3f) | 0x80);3 A' r$ J; M& K& h$ b) t, l
bytes.push(((code >> 6) & 0x3f) | 0x80);% Y4 R0 }% B0 v& e+ I
bytes.push((code & 0x3f) | 0x80);+ v# F1 D/ b( r) u. R1 B
} else if (code >= 0x800 && code > 12) | 0xe0);
3 T3 S- E- Z S) l& n bytes.push(((code >> 6) & 0x3f) | 0x80);( T0 f9 F3 L; R# S
bytes.push((code & 0x3f) | 0x80);
2 v: W" a: Z' n- C( |3 C, E, C } else if (code >= 0x80 && code > 6) | 0xc0);
, R* i, x0 A* W2 _4 T& i bytes.push((code & 0x3f) | 0x80);
. _3 S7 Q S: B3 E } else {
; y0 {; m4 J" g bytes.push(code)
1 Z% f) H5 Z4 I# g \7 B }
# {) k- t, K! d' g B5 F( p- n }
0 {; Z: e1 p3 n6 r return bytes;
4 v9 {3 @: {9 K. N2 x, p}
8 }9 U: M0 E% m$ Z' S7 G' l// 将字节流转换成16进制字符串) L* x5 A5 `" {% U: S: F2 O
function hexString(bytes) {
i' b. P/ u0 R1 { var arr = bytes.map(function (code) {& s& o; D. Q: E9 l/ F
return (code).toString(16).toUpperCase();4 T1 T$ \" Y/ a
});/ q: x+ r1 T3 z
return arr.join(' ');
! y: `; d# N% q8 G8 q" x' x1 Y}
& Y" ]2 Z( w6 t; Z8 u, R; L: C) Ofunction utf8(str) {2 i5 l# t) s2 y/ z& u8 D" Q7 H
return hexString(getUTF8Bytes(str));: |% }* @$ |, V: d& Q2 M& M, J
}
3 u7 A, h$ r. y4 N! Z0 h调用函数utf8,这才是JavaScript得到字符串的UTF8编码的正确姿势!从UTF8编码转换到字符串,做相反工作即可。! X# V9 j P9 _( t* N( R; v
AD:【国外VPS推荐】 Vultr全球16个数据中心,高速SSD硬盘,月付2.5$起,注册充10$送100$打赏赞(1) |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|