java中字符编码详解

字符编码的发展历程:

阶段1:
计算机只认识数字,我们在计算机里一切数据都是以数字来表示,因为英文符号有限,
所以规定使用的字节的最高位是0.每一个字节都是以0~127之间的数字来表示,比如A对应65,a对应97.
这就是美国标准信息交换码-ASCII.

阶段2:
随着计算机在全球的普及,很多国家和地区都把自己的字符引入了计算机,比如汉字.
此时发现一个字节能表示数字范围太小,不能包含所有的中文汉字,那么就规定使用两个字节来表示一个汉字.
规定:原有的ASCII字符的编码保持不变,仍然使用一个字节表示,为了区别一个中文字符与两个ASCII码字符,
中文字符的每个字节最高位规定为1(中文的二进制是负数).这个规范就是GB2312编码,
后来在GB2312的基础上增加了更多的中文字符,比如汉字,也就出现了GBK.

阶段3:
新的问题,在中国是认识汉字的,但是如果把汉字传递给其他国家,该国家的码表中没有收录汉字,其实就显示另一个符号或者乱码.
为了解决各个国家因为本地化字符编码带来的影响,咱们就把全世界所有的符号统一进行编码-Unicode编码.
此时某一个字符在全世界任何地方都是固定的,比如’哥’,在任何地方都是以十六进制的54E5来表示.
Unicode的编码字符都占有2个字节大小.

常见的字符集:

ASCII: 占一个字节,只能包含128个符号. 不能表示汉字
ISO-8859-1:(latin-1):占一个字节,收录西欧语言,.不能表示汉字.
ANSI:占两个字节,在简体中文的操作系统中 ANSI 就指的是 GB2312.
GB2312/GBK/GB18030:占两个字节,支持中文.
UTF-8:是一种针对Unicode的可变长度字符编码,又称万国码,是Unicode的实现方式之一。
编码中的第一个字节仍与ASCII兼容,这使得原来处理ASCII字符的软件无须或只须做少部份修改,即可继续使用。
因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。互联网工程工作小组(IETF)要求所有互联网协议都必须支持UTF-8编码。

UTF-8 BOM:是MS搞出来的编码,默认占3个字节,不要使用这个.

存储字母,数字和汉字:
存储字母和数字无论是什么字符集都占1个字节.
存储汉字: GBK家族占两个字节,UTF-8家族占3个字节.

不能使用单字节的字符集(ASCII/ISO-8859-1)来存储中文.


-字符的编码和解码操作:

编码: 把字符串转换为byte数组.
解码: 把byte数组转换为字符串.
一定要保证编码和解码的字符相同,否则乱码.

这里写图片描述
这里写图片描述
代码案例:

package IO;import java.io.UnsupportedEncodingException;
import java.util.Arrays;public class EncodingDemo {public static void main(String[] args) throws Exception {String str = "中国";
//      GBK编码规则是一个汉字占两个字节,而UTF-8是三个字节为一个汉字byte[] b = str.getBytes("GBK");String out = new String(b,"GBK");System.out.println(out);System.out.println("---------------------------");
//      由于服务器是外国人写的默认是ISO-8859-1因此当我们获取该编码的数据时候先把该数据重新定义自己的编码String s = new String(b,"ISO-8859-1");System.out.println("打印乱码:"+s);b = s.getBytes("ISO-8859-1");System.out.println(Arrays.toString(b));String ss = new String(b,"GBK");System.out.println(ss);}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/509588.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch Pipeline 详解

文章目录Ingest Node简介 Ingest Node简介 Pipeline、ProcessorsPipeline 定义简介 Simulate Pipeline API访问 Pipeline 中的内容Processors 类型详解Append ProcessorConvert ProcessorDate ProcessorDate Index Name ProcessorFail ProcessorForeach ProcessorGrok Processo…

java中的包装流和缓冲流概述

处理流/包装流(相对于节点流更高级)装饰设计模式/包装模式: 1:隐藏了底层的节点流的差异,并对外提供了更方便的输入/输出功能,让我们只关心高级流的操作. 2:使用处理流包装了节点流,程序直接操作处理流,让节点流与底层的设备做IO操作. 3:只需要关闭处理流即可. 包装流如何区…

数据结构实验之二叉树七:叶子问题

题目描述 已知一个按先序输入的字符序列,如abd,,eg,,,cf,,,(其中,表示空结点)。请建立该二叉树并按从上到下从左到右的顺序输出该二叉树的所有叶子结点。 输入 输入数据有多行,每一行是一个长度小于50个字符的字符串。输出 按从上到下从左到右的顺序输出…

vi/vim 光标移动命令

移动光标 上:k nk:向上移动n行 9999k或gg可以移到第一行 G移到最后一行 下:j nj:向下移动n行 左:h nh:向左移动n列 右:l nl:向右移动n列 w:光标以单词向前移动 nw:光标向前移动n个单词 光标到单词的第一个字母上 b:与w相反 e: 光标以单词向前…

CentOS离线安装httpd服务

文章目录需求背景安装需求背景 需要在无网络环境下安装httpd服务 安装 提示:直接下载httpd离线安装包无法安装成功,需要安装相对应的依赖 需要下载的依赖如下: apr-1.4.8-5.el7.x86_64.rpm apr-util-1.5.2-6.el7.x86_64.rpm apr-util-lda…

转换流和内存流

转换流:把字节流转成字符流: InputStreamReader:把字节输入流转成字符输入流. OutputStreamWriter:把字节输出流转成字符输出流. 为什么有字节转字符流,没有字符转字节流. 字节流可以操作一切文件(纯文本文件/二进制文件).字符流是用来操作中文纯文本使用的,本身是对字节流的…

windows配置gvim高效率编程(cc++)带自动补全代码

对vim的配置足以处理一般的比赛获其他编程项目要求,如自动缩进,自动补全等等。先上几张截图,看看效果: 可以看见vim简洁高效的界面和不错的缩进功能。 debug功能 一、安装gvim 下载资源并安装 百度云下载网址http://pan.baid…

数据结构实验之二叉树四:还原二叉树

题目描述 给定一棵二叉树的先序遍历序列和中序遍历序列&#xff0c;要求计算该二叉树的高度。 输入 输入数据有多组&#xff0c;每组数据第一行输入1个正整数N(1 < N < 50)为树中结点总数&#xff0c;随后2行先后给出先序和中序遍历序列&#xff0c;均是长度为N的不包含重…

Flink 1.12 CDH 6.3 集成

之前记录的&#xff1a;Flink 1.9 CDH 6.3 集成 有些下载链接可能被官方关闭了&#xff0c;这里介绍1.12版本集成&#xff0c;并把安装包下载地址换为百度网盘链接 下载安装包 链接: https://pan.baidu.com/s/112fiaaMAMMXMsyiTDh3qjg 提取码: ar5f 安装包内容 FLINK-1.12…

合并流

合并流/顺序流(SequenceInputStream): 就是把多个输入流,合并成一个流对象.

gvim常用的配置及插件 -windows

gvim常用的配置及插件 接触vim也已经有一年多了&#xff0c;期间也用过一段时间的SourceInsight&#xff0c;SourceInsight是Windows下一款不错的查看代码的软件。利用它可以迅速的了解一个大型程序的结构。后来在Linux下进行了一段时间的程序开发&#xff0c;就回到vim上了,经…

数据结构实验之求二叉树后序遍历和层次遍历

题目描述 已知一棵二叉树的前序遍历和中序遍历&#xff0c;求二叉树的后序遍历。输入 输入数据有多组&#xff0c;第一行是一个整数t (t<1000)&#xff0c;代表有t组测试数据。每组包括两个长度小于50 的字符串&#xff0c;第一个字符串表示二叉树的先序遍历序列&#xff0c…

CDH 6 安装服务哈希验证失败 解决方法

当安装cdh 6&#xff0c;使用本地搭建的parcel时&#xff0c;出现了哈希验证失败的问题&#xff1a; 查看了parcel的sha值&#xff0c;与官网的一致&#xff0c;没有问题&#xff1a; #parcel sha值 [rootlocalhost bigdata]# sha1sum CDH-6.0.0-1.cdh6.0.0.p0.537114-el7.pa…

Arrays.sort()用来自定义排序的使用

compareTo方法 public int compareTo(String anotherString)按字典顺序比较两个字符串。该比较基于字符串中各个字符的 Unicode 值。按字典顺序将此 String 对象表示的字符序列与参数字符串所表示的字符序列进行比较。如果按字典顺序此 String 对象位于参数字符串之前&#xf…

gvim配置

手把手教你把Vim改装成一个IDE编程环境(图文) By:吴垠Date:2007-09-07Version:0.5Email:lazy.fox.wu#gmail.comHomepage:http://blog.csdn.net/wooinCopyright:该文章版权由吴垠和他可爱的老婆小包子所有。可在非商业目的下任意传播和复制。对于商业目的下对本文的任何行为需…

双向队列

题目描述 想想双向链表……双向队列的定义差不多&#xff0c;也就是说一个队列的队尾同时也是队首&#xff1b;两头都可以做出队&#xff0c;入队的操作。 现在给你一系列的操作&#xff0c;请输出最后队列的状态&#xff1b; 命令格式&#xff1a; LIN X X表示一个整数&#…

Dubbo调用时报错Invalid token Forbid invoke remote service interface

dubbo开启token服务后&#xff0c;使用集群容错策略为FailoverClusterInvoker&#xff0c;当出现服务调用失败进行转移&#xff0c;重试其它服务器时&#xff0c;会出现token invalid错误&#xff0c;provider会拒绝服务调用。 原因&#xff1a; 消费端&#xff1a; 1、com.…

蓝桥杯-方格填数

方格填数 如下的10个格子 ––– | | | | –––– | | | | | –––– | | | | ––– &#xff08;如果显示有问题&#xff0c;也可以参看【图1.jpg】&#xff09; 填入0~9的数字。要求&#xff1a;连续的两个数字不能相邻。 &#xff08;左右、上下、对角都算相邻…

Gvim开发环境配置笔记--Windows篇

环境&#xff1a;Windows7 旗舰版 1、安装Gvim7.3 &#xff1a; 下载地址http://www.vim.org/download.php#pc。 2、安装中文帮助&#xff1a;vimcdoc-1.8.0-setup.exe 地址http://vimcdoc.sourceforge.net/ 会自动识别gvim的安装路径&#xff0c; 安装完后&#xff0c;gvim菜单…

Grafana : 前端页面 通过API Key免登录访问Grafana

文章目录场景一是使用匿名登陆&#xff0c;最简单方便二是使用grafana颁发一个API Key。场景 平台要集成grafana&#xff0c;想绕过用户登录&#xff0c;目前知道有2个方法。 前提&#xff1a;先修改配置defaults.ini/grafana.ini允许嵌入 allow_embedding true一是使用匿名…