企业做网站建设网站seo推广软件
web/
2025/9/27 15:34:14/
文章来源:
企业做网站建设,网站seo推广软件,深圳短视频关键词搜索排名推广,网站后台模板如何使用目录 字符编码
字符编码说明参考网站
字符编码
ASCII编码
ASCII编码介绍
ASCII编码表
中文编码
1. GB2312标准
区位码 2. GBK编码
3. GB18030
各个标准的对比说明
4. Big5编码 字符编码
字符编码说明参考网站
字符编码及转换测试#xff1a;导航菜单 - 千千秀字 …目录 字符编码
字符编码说明参考网站
字符编码
ASCII编码
ASCII编码介绍
ASCII编码表
中文编码
1. GB2312标准
区位码 2. GBK编码
3. GB18030
各个标准的对比说明
4. Big5编码 字符编码
字符编码说明参考网站
字符编码及转换测试导航菜单 - 千千秀字
Unicode官网Index。
使用举例 keil5设置编码如下 字符编码 由于计算机只能识别0和1文字也只能以0和1的形式在计算机里存储所以我们需要对文字进行编码才能让计算机处理编码的过程就是规定特定的01数字串来表示特定的文字最简单的字符编码例子是ASCII码。
ASCII编码
ASCII编码介绍
在程序设计中使用ASCII编码表约定了一些控制字符、英文及数字。它们在存储器中本质也是二进制数只是我们约定这些二进制数可以表示某些特殊意义如以ASCII编码解释数字“0x41”时它表示英文字符“A”。
ASCII编码表 ASCII码表分为两部分第一部分是控制字符或通讯专用字符它们的数字编码从0~31它们并没有特定的图形显示但会根据不同的应用程序而对文本显示有不同的影响。ASCII码的第二部分包括空格、阿拉伯数字、标点符号、大小写英文字母以及“DEL删除控制”这部分符号的数字编码从32~127除最后一个DEL符号外都能以图形的方式来表示它们属于传统文字书写系统的一部分。 后来计算机引进到其它国家的时候由于他们使用的不是英语他们使用的字母在ASCII码表中没有定义所以他们采用127号之后的位来表示这些新的字母还加入了各种形状一直编号到255。从128到255这些字符被称为ASCII扩展字符集。至此基本存储单位Byte(char)能表示的编号都被用完了。
中文编码 英文书写系统都是由26个基本字母组成利用26个字母组可合出不同的单词所以用ASCII码表就能表达整个英文书写系统。而中文书写系统中的汉字是独立的方块若参考单词拆解成字母的表示方式汉字可以拆解成部首、笔画来表示但这样会非常复杂(可参考五笔输入法编码)所以中文编码直接对方块字进行编码一个汉字使用一个号码。 由于汉字非常多常用字就有6000多个如果像ASCII编码表那样只使用1个字节最多只能表示256个汉字所以我们使用2个字节来编码。
比如 1. GB2312标准
我国首先定义的是GB2312标准。它把ASCII码表127号之后的扩展字符集直接取消掉并规定小于127的编码按原来ASCII标准解释字符。当2个大于127的字符连在一起时就表示1个汉字第1个字节使用 (0xA1-0xFE) 编码第2个字节使用(0xA1-0xFE)编码这样的编码组合起来可以表示了7000多个符号其中包含6763个汉字0xA1十进制为161是远远超出127的。在这些编码里我们还把数学符号、罗马字母、日文假名等都编进表中就连原来在ASCII里原本就有的数字、标点以及字母也重新编了2个字节长的编码这就是平时在输入法里可切换的“全角”字符而标准的ASCII码表中127号以下的就被称为“半角”字符。 下表说明了GB2312是如何兼容ASCII码的当我们设定系统使用GB2312标准的时候它遇到一个字符串时会按字节检测字符值的大小若遇到连续两个字节的数值都大于127时就把这两个连续的字节合在一起用GB2312解码若遇到的数值小于127就直接用ASCII把它解码。 区位码 在GB2312编码的实际使用中有时会用到区位码的概念。GB2312编码对所收录字符进行了“分区”处理共94个区每区含有94个位共8836个码位。而区位码实际是GB2312编码的内部形式它规定对收录的每个字符采用两个字节表示第一个字节为“高字节”对应94个区第二个字节为“低字节”对应94个位。所以它的区位码范围是0101-9494。为兼容ASCII码区号和位号分别加上0xA0偏移就得到GB2312编码。在区位码上加上0xA0偏移可求得GB2312编码范围0xA1A10xFEFE其中汉字的编码范围为0xB0A1-0xF7FE第一字节0xB0-0xF7对应区号1687第二个字节0xA1-0xFE对应位号0194。 例如“啊”字是GB2312编码中的第一个汉字它位于16区的01位所以它的区位码就是1601加上0xA0偏移其GB2312编码为0xB0A1。其中区位码为0101的码位表示的是“空格”符。 2. GBK编码 据统计GB2312编码中表示的6763个汉字已经覆盖中国大陆99.75%的使用率单看这个数字已经很令人满意了但是不能因为那些文字不常用就不让它进入信息时代而且生僻字在人名、文言文中的出现频率是非常高的。 为此我们在GB2312标准的基础上又增加了14240个新汉字(包括所有后面介绍的Big5中的所有汉字)和符号这个方案被称为GBK标准。增加这么多字符按照GB2312原来的格式来编码2个字节已经存储不下我们的程序员修改了一下格式不再要求第2个字节的编码值必须大于127只要第1个字节大于127就表示这是一个汉字的开始这样就做到兼容ASCII和GB2312标准了。 说明了GBK是如何兼容ASCII和GB2312标准的当我们设定系统使用GBK标准的时候它按顺序遍历字符串按字节检测字符值的大小若遇到一个字符的值大于127时就再读取它后面的一个字符把这两个字符值合在一起用GBK解码解码完后再读取第3个字符重新开始以上过程若该字符值小于127则直接用ASCII解码。 如图 3. GB18030 随着计算机技术的普及我们后来又在GBK的标准上不断扩展字符这些标准被称为GB18030如GB18030-2000、GB18030-2005等(“-”号后面的数字是制定标准时的年号)GB18030的编码使用4个字节它利用前面标准中的第2个字节未使用的“0x30-0x39”编码表示扩充四字节的后缀兼容GBK、GB2312及ASCII标准。 GB18030-2000主要在GBK基础上增加了“CJK(中日韩)统一汉字扩充A”的汉字。加上前面GBK的内容GB18030-2000一共规定了27533个汉字包括部首、部件等的编码还有一些常用非汉字符号。 GB18030-2005的主要特点是在GB18030-2000基础上增加了“CJK(中日韩)统一汉字扩充B”的汉字。增加了42711个汉字和多种我国少数民族文字的编码如藏、蒙古、傣、彝、朝鲜、维吾尔文等。加上前面GB18030-2000的内容一共收录了70244个汉字。
各个标准的对比说明 GB2312、GBK及GB18030是汉字的国家标准编码新版向下兼容旧版各个标准简要说明见下表目前比较流行的是GBK编码因为每个汉字只占用2个字节而且它编码的字符已经能满足大部分的需求但国家要求一些产品必须支持GB18030标准。 4. Big5编码 在台湾、香港等地区使用较多的是Big5编码它的主要特点是收录了繁体字。而从GBK编码开始已经把Big5中的所有汉字收录进编码了。即对于汉字部分GBK是Big5的超集Big5能表示的汉字在GBK都能找到那些字相应的编码但他们的编码是不一样的两个标准不兼容如GBK中的“啊”字编码是“0xB0A1”而Big5标准中的编码为“0xB0DA”。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/81070.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!