unicode区 - GB18030与Unicode有什么不同?



unicode字符平面 (2)

中文GB18030的代码与Unicode有什么不同?

处理GB18030需要什么特殊技术?

是否有任何(开源)库处理GB18030?

https://ffff65535.com


根据GB18030上维基百科文章 ,“GB18030可以被认为是与传统字符集保持兼容性的Unicode转换格式(即所有Unicode代码点的编码)”。 也就是说,所有的Unicode字符都可以用GB18030进行编码,但是它们将用不同于UTF-8或UTF-16生成的字节序列进行编码。 处理GB18030编码不需要比任何其他非Unicode编码所需的更多的特殊技术。

ICU项目是一个开放源代码库(用于C或Java),完全支持许多不同的编码,包括GB18030。 有关ICU与不同编码之间转换的信息可以在这里找到。


处理GB18030需要什么特殊技术?

最值得注意的是,与UTF-8不同,GB18030允许ASCII字节在多字节字符的编码中出现。 (例如,“ß”被编码为字节81 30 89 38 ,其中包含“0”和“8”的ASCII编码)。这意味着您不能使用简单的面向字节的find / index功能。





unicode