★★ 字符集、编码格式浅析

sony-soft

浏览: 1018923 次

最近访客更多访客>>

wangyy

damaoyou

dinklmm325

sybase001

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1704)

社区版块

存档分类

2012-08 ( 30)
2012-07 ( 69)
2012-06 ( 35)
更多存档...

记事本编码格式浅析

url:http://blog.csdn.net/liyangbing315/archive/2010/05/22/5616643.aspx

问题一。记事本文件的编码格式：

在计算机中字符通常并不是保存为图像，每个字符都是使用一个编码来表示的，而每个字符究竟使用哪个编码代表，要取决于使用哪个字符集(charset)。

在最初的时候，Internet上只有一种字符集——ANSI的ASCII字符集，它使用7 bits来表示一个字符，总共表示128个字符，其中包括了英文字母、数字、标点符号等常用字符。之后，又进行扩展，使用8 bits表示一个字符，可以表示256个字符，主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符。

后来，由于各国语言的加入，ASCII已经不能满足信息交流的需要，因此，为了能够表示其它国家的文字，各国在ASCII的基础上制定了自己的字符集，这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集，它们正式的名称应该是MBCS(Multi-Byte Chactacter System，即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础，兼容ASCII 127，他们使用大于128的编码作为一个Leading Byte，紧跟在Leading Byte后的第二（甚至第三）个字符与Leading Byte一起作为实际的编码。这样的字符集有很多，我们常见的GB-2312就是其中之一。

例如在GB-2312字符集中，“连通”的编码为C1 AC CD A8，其中C1和CD就是Leading Byte。前127个编码为标准ASCII保留，例如“0”的编码是30H（30H表示十六进制的30）。软件在读取时，如果看到30H，知道它小于128就是标准ASCII，表示“0”，看到C1大于128就知道它后面有一个另外的编码，因此C1 AC一同构成一个整个的编码，在GB-2312字符集中表示“连”。

由于每种语言都制定了自己的字符集，导致最后存在的各种字符集实在太多，在国际交流中要经常转换字符集非常不便。因此，提出了Unicode字符集，它固定使用16 bits（两个字节、一个字）来表示一个字符，共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中，方便了信息交流。标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输，出现了UTF-8，使用类似MBCS的方式对Unicode进行编码。注意UTF-8是编码，它属于Unicode字符集。Unicode字符集有多种编码形式，而ASCII只有一种，大多数MBCS（包括GB-2312）也只有一种。

例如“连通”两个字的Unicode标准编码UTF-16 (big endian）为：DE 8F 1A 90

而其UTF-8编码为：E8 BF 9E E9 80 9A

最后，当一个软件打开一个文本时，它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件有三种途径来决定文本的字符集和编码：

最标准的途径是检测文本最开头的几个字节，如下表：

开头字节
Charset/encoding

EF BB BF
UTF-8

FE FF
UTF-16/UCS-2, little endian

FF FE
UTF-16/UCS-2, big endian

FF FE 00 00
UTF-32/UCS-4, little endian.

00 00 FE FF
UTF-32/UCS-4, big-endian.

例如插入标记后，连通”两个字的UTF-16 (big endian）和UTF-8码分别为：
FF FE DE 8F 1A 90
EF BB BF E8 BF 9E E9 80 9A

但是MBCS文本没有这些位于开头的字符集标记，更不幸的是，一些早期的和一些设计不良的软件在保存Unicode文本时不插入这些位于开头的字符集标记。因此，软件不能依赖于这种途径。这时，软件可以采取一种比较安全的方式来决定字符集及其编码，那就是弹出一个对话框来请示用户，例如将那个“连通”文件拖到MS Word中，Word就会弹出一个对话框。

如果软件不想麻烦用户，或者它不方便向用户请示，那它只能采取自己“猜”的方法，软件可以根据整个文本的特征来猜测它可能属于哪个charset，这就很可能不准了。使用记事本打开那个“连通”文件就属于这种情况。

我们可以证明这一点：在记事本中键入“连通”后，选择“另存为”，会看到最后一个下拉框中显示有“ANSI”，这时保存。当再当打开“连通”文件出现乱码后，再点击“文件”->“另存为”，会看到最后一个下拉框中显示有“UTF-8”，这说明记事本认为当前打开的这个文本是一个UTF-8编码的文本。而我们刚才保存时是用ANSI字符集保存的。这说明，记事本猜测了“连通”文件的字符集，认为它更像一个UTF-8编码文本。这是因为“连通”两个字的GB-2312编码看起来更像UTF-8编码导致的，这是一个巧合，不是所有文字都这样。可以使用记事本的打开功能，在打开“连通”文件时在最后一个下拉框中选择ANSI，就能正常显示了。反过来，如果之前保存时保存为UTF-8编码，则直接打开也不会出现问题。

如果将“连通”文件放入MS Word中，Word也会认为它是一个UTF-8编码的文件，但它不能确定，因此会弹出一个对话框询问用户，这时选择“简体中文（GB2312）”，就能正常打开了。记事本在这一点上做得比较简化罢了。

实验证明：

File file = new File("D:/记事本.txt");

BufferedInputStream bis = new BufferedInputStream(new FileInputStream(file));

int t;

int j = 0;

while ((t=bis.read()) != -1) {

j++;

System.out.print(Integer.toString(t, 16) + " ");

if (j % 2 == 0) {

System.out.println();

}

当记事本保存为ANSI格式时：

输出： c1 ac cd a8

当记事本保存为UTF-8:

ef bb bf (bom)

e8 bf 9e

e9 80 9a

当记事本保存为Unicode时：

ff fe （bom）

de 8f

1a 90

当记事本保存为Unicode big endian

fe ff (bom)

8f de

90 1a

读取字符流时，要根据记事本文件的格式，指定直接流，转换为字符流的编码格式：方法如下：

BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(file),"utf-8"));

int t;

while ((t=br.read()) != -1) {

System.out.println((char)t);

}

编码基础知识：

1，字符：字符是抽象的最小文本单位。它没有固定的形状（可能是一个字形），而且没有值。“A”是一个字符，“€”（德国、法国和许多其他欧洲国家通用货币的标志）也是一个字符。“中”“国”这是两个汉字字符。字符仅仅代表一个符号，没有任何实际值的意义。
2，字符集：字符集是字符的集合。例如，汉字字符是中国人最先发明的字符，在中文、日文、韩文和越南文的书写中使用。这也说明了字符和字符集之间的关系，字符组成字符集（iso8859-1，GB2312/GBK，unicode）。
3，代码点：字符集中的每个字符都被分配到一个“代码点”。每个代码点都有一个特定的唯一数值，称为标值。该标量值通常用十六进制表示。
4，代码单元：在每种编码形式中，代码点被映射到一个或多个代码单元。“代码单元”是各个编码方式中的单个单元。代码单元的大小等效于特定编码方式的位数：
UTF-8 ：UTF-8 中的代码单元由 8 位组成；在 UTF-8 中，因为代码单元较小的缘故，每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个、三个或四个代码单元；
UTF-16 ：UTF-16 中的代码单元由 16 位组成；UTF-16 的代码单元大小是 8 位代码单元的两倍。所以，标量值小于 U+10000 的代码点被编码到单个代码单元中；
UTF-32：UTF-32 中的代码单元由 32 位组成； UTF-32 中使用的 32 位代码单元足够大，每个代码点都可编码为单个代码单元；
GB18030：GB18030 中的代码单元由 8 位组成；在 GB18030 中，因为代码单元较小的缘故，每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个或四个代码单元。
5，举例：

“中国北京香蕉是个大笨蛋”这是我定义的aka字符集；各字符对应代码点为：
北 00000001
京 00000010
香 10000001
蕉 10000010
是 10000100
个 10001000
大 10010000
笨 10100000
蛋 11000000
中 00000100
国 00001000
下面是我定义的 zixia 编码方案（8位），可以看到它的编码中表示了aka字符集的所有字符对应的代码单元；
北 10000001
京 10000010
香 00000001
蕉 00000010
是 00000100
个 00001000
大 00010000
笨 00100000
蛋 01000000
中 10000100
国 10001000
所谓文本文件就是我们按一定编码方式将二进制数据表示为对应的文本如 00000001000000100000010000001000000100000010000001000000这样的文件。我用一个支持 zixia编码和aka字符集的记事本打开，它就按照编码方案显示为 “香蕉是个大笨蛋 ”
如果我把这些字符按照GBK另存一个文件，那么则肯定不是这个，而是
1100111111100011 1011110110110110 1100101011000111 1011100011110110 1011010011110011 1011000110111111 1011010110110000 110100001010

二，字符集
1，常用字符集分类
ASCII及其扩展字符集
作用：表语英语及西欧语言。
位数：ASCII是用7位表示的，能表示128个字符；其扩展使用8位表示，表示256个字符。
范围：ASCII从00到7F，扩展从00到FF。
ISO-8859-1字符集
作用：扩展ASCII，表示西欧、希腊语等。
位数：8位，
范围：从00到FF，兼容ASCII字符集。
GB2312字符集
作用：国家简体中文字符集，兼容ASCII。
位数：使用2个字节表示，能表示7445个符号，包括6763个汉字，几乎覆盖所有高频率汉字。
范围：高字节从A1到F7, 低字节从A1到FE。将高字节和低字节分别加上0XA0即可得到编码。
BIG5字符集
作用：统一繁体字编码。
位数：使用2个字节表示，表示13053个汉字。
范围：高字节从A1到F9，低字节从40到7E，A1到FE。
GBK字符集
作用：它是GB2312的扩展，加入对繁体字的支持，兼容GB2312。
位数：使用2个字节表示，可表示21886个字符。
范围：高字节从81到FE，低字节从40到FE。
GB18030字符集
作用：它解决了中文、日文、朝鲜语等的编码，兼容GBK。
位数：它采用变字节表示(1 ASCII，2，4字节)。可表示27484个文字。
范围：1字节从00到7F; 2字节高字节从81到FE，低字节从40到7E和80到FE；4字节第一三字节从81到FE，第二四字节从30到39。
UCS字符集
作用：国际标准 ISO 10646 定义了通用字符集 (Universal Character Set)。它是与UNICODE同类的组织，UCS-2和UNICODE兼容。
位数：它有UCS-2和UCS-4两种格式，分别是2字节和4字节。
范围：目前，UCS-4只是在UCS-2前面加了0×0000。
UNICODE字符集
作用：为世界650种语言进行统一编码，兼容ISO-8859-1。
位数：UNICODE字符集有多个编码方式，分别是UTF-8，UTF-16和UTF-32。
2 ，按所表示的文字分类
语言字符集正式名称
英语、西欧语 ASCII，ISO-8859-1 MBCS 多字节
简体中文 GB2312 MBCS 多字节
繁体中文 BIG5 MBCS 多字节
简繁中文 GBK MBCS 多字节
中文、日文及朝鲜语 GB18030 MBCS 多字节
各国语言 UNICODE，UCS DBCS 宽字节

三，编码
UTF-8：采用变长字节 (1 ASCII, 2 希腊字母, 3 汉字, 4 平面符号) 表示，网络传输, 即使错了一个字节，不影响其他字节，而双字节只要一个错了，其他也错了，具体如下：
如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的字节数，其余各字节均以10开头。UTF-8最多可用到6个字节。

UTF-16：采用2字节，Unicode中不同部分的字符都同样基于现有的标准。这是为了便于转换。从 0×0000到0×007F是ASCII字符，从0×0080到0×00FF是ISO-8859-1对ASCII的扩展。希腊字母表使用从0×0370到 0×03FF 的代码，斯拉夫语使用从0×0400到0×04FF的代码，美国使用从0×0530到0×058F的代码，希伯来语使用从0×0590到0×05FF的代码。中国、日本和韩国的象形文字（总称为CJK）占用了从0×3000到0×9FFF的代码；由于0×00在c语言及操作系统文件名等中有特殊意义，故很多情况下需要UTF-8编码保存文本，去掉这个0×00。举例如下：
UTF-16: 0×0080 = 0000 0000 1000 0000
UTF-8: 0xC280 = 1100 0010 1000 0000
UTF-32：采用4字节。
优缺点
UTF-8、UTF-16和UTF-32都可以表示有效编码空间 (U+000000-U+10FFFF) 内的所有Unicode字符。
使用UTF-8编码时ASCII字符只占1个字节，存储效率比较高，适用于拉丁字符较多的场合以节省空间。
对于大多数非拉丁字符（如中文和日文）来说，UTF-16所需存储空间最小，每个字符只占2个字节。
Windows NT内核是Unicode（UTF-16），采用UTF-16编码在调用系统API时无需转换，处理速度也比较快。
采用UTF-16和UTF-32会有Big Endian和Little Endian之分，而UTF-8则没有字节顺序问题，所以UTF-8适合传输和通信。
UTF-32采用4字节编码，一方面处理速度比较快，但另一方面也浪费了大量空间，影响传输速度，因而很少使用。

四，如何判断字符集
1，字节序
首先说一下字节序对编码的影响，字节序分为Big Endian字节序和Little Endian字节序。不同的处理器可能不一样。所以，传输时需要告诉处理器当时的编码字节序。对于前者而言，高位字节存在低地址，低字节存于高地址；后者相反。例如，0X03AB,
Big Endian字节序
0000: 0 3
0001: AB
Little Endian字节序是
0000: AB
0001: 0 3
2，编码识别
UNICODE，根据前几个字节可以判断UNICODE字符集的各种编码，叫做Byte Order Mask方法BOM：
UTF-8: EFBBBF (符合UTF-8格式，请看上面。但没有含义在UCS即UNICODE中)
UTF-16 Big Endian：FEFF (没有含义在UCS-2中)
UTF-16 Little Endian：FFFE (没有含义在UCS-2中)
UTF-32 Big Endian：0000FEFF (没有含义在UCS-4中)
UTF-32 Little Endian：FFFE0000 (没有含义在UCS-4中)

GB2312：高字节和低字节的第1位都是1。

BIG5，GBK&GB18030：高字节的第1位为1。操作系统有默认的编码，常为GBK，可以下载别的并升级。通过判断高字节的第1位从而知道是ASCII或者汉字编码。

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/liyangbing315/archive/2010/05/22/5616643.aspx

=================================================

java String与unicode

URL：http://blog.csdn.net/liyangbing315/archive/2010/05/22/5616648.aspx

java.nio.charset.Charset

public static Charset defaultCharset()

此方法的作用：返回java虚拟机的默认字符集，默认的字符集取决于操作系统的字符集。

java.lang.String

public byte[] getBytes()

此方法的作用：编码字符串到一个字节流序列，此时采用的编码是平台默认的编码，如果想获得指定编码的字节序列,可用下面这个方法：

public byte[] getBytes(String charsetName)

按照指定编码返回此字符串的编码格式。

证据如下：

String str = "我";

System.out.println(Integer.toHexString(codePoint));

byte[] bs = str.getBytes();

System.out.println(Charset.defaultCharset());

for (int i=0; i<bs.length; i++) {

System.out.print(bs[i] + " ");

｝

System.out.println();

6211

GBK

-50 -46

当指定编码为UTF-8时：

6211

GBK

-26 -120 -111

当指定为UTF-16时：

-2 -1 98 17

注意此处输出了四个字节，是因为前面两个字节是用来表示字符的编码序列.

public int codePointAt(int index)

返回指定索引处的字符（Unicode 代码点）。该索引引用 char 值（Unicode 代码单元），其范围从 0 到length()- 1。

注意字符串在内存中是以unicode代码点的方式存储的。

public String(byte[] bytes, String charsetName)

throws UnsupportedEncodingException

构造一个新的 String，方法是使用指定的字符集解码指定的字节数组。新的 String 的长度是一个字符集函数，因此不能等于字节数组的长度。

public String[] split(String regex)

根据给定的正则表达式的匹配来拆分此字符串。

该方法的作用就像是使用给定的表达式和限制参数 0 来调用两因此，结果数组中不包括结尾空字符串。

例如，字符串 "boo:and:foo" 产生带有下面这些表达式的结果：

Regex
结果

:
{ "boo", "and", "foo" }

o
{ "b", "", ":and:f" }

试验证明：

String str = "boo:and:foo";

String[] tr = str.split(":");

for (String s : tr) {

System.out.println(s);

}

输出结果：

boo

and

foo

public String[] split(String regex,

int limit)

根据匹配给定的正则表达式来拆分此字符串

limit影响字符数组的长度；最大不能超过limit

试验证明：

String str = "boo:and:foo";

String[] tr = str.split(":", 2);

for (String s : tr) {

System.out.println(s);

}

输出结果：

boo

and:foo

即字符串数组的最大长度为2

经验分享：

1、分隔符为“.”(无输出),“|”(不能得到正确结果)转义字符时,“*”,“+”时出错抛出异常,都必须在前面加必须得加"//",如split(//|);

2、如果用"/"作为分隔,就得写成这样：String.split("////"),因为在Java中是用"//"来表示"/"的,字符串得写成这样：String Str="a//b//c";

转义字符,必须得加"//";

3、如果在一个字符串中有多个分隔符,可以用"|"作为连字符,比如：String str="Java string-split#test",可以用Str.split(" |-|#")把每个字符串分开;

试验证明：

String str="Java str//in.g-split#test";

String[] t = str.split(" |-|#|////|//.");

for (String temp : t) {

System.out.println(temp);

}

输出结果：

Java

str

split

test

public String replace(char oldChar, char newChar)返回一个新的字符串，它是通过用 newChar 替换此字符串中出现的所有 oldChar 而生成的。

如果 oldChar 在此 String 对象表示的字符序列中没有出现，则返回对此 String 对象的引用。否则，创建一个新的 String 对象，用来表示与此 String 对象表示的字符序列相等的字符序列，除了每个出现的 oldChar 都被一个 newChar 替换之外。

示例：

"mesquite in your cellar".replace('e', 'o') returns "mosquito in your collar" "the war of baronets".replace('r', 'y') returns "the way of bayonets" "sparring with a purple porpoise".replace('p', 't') returns "starring with a turtle tortoise" "JonL".replace('q', 'x') returns "JonL" (no change) 试验证明： String str = "tst";

String str2 = str.replace('y', 'z');

System.out.println(str == str2);

输出结果：

true

当有字符被替换掉时：

String str = "tst";

String str2 = str.replace('t', 'z');

System.out.println(str == str2);

输出结果：

false

replaceAll
public String replaceAll(String regex, String replacement)使用给定的 replacement 字符串替换此字符串匹配给定的正则表达式的每个子字符串。

试验证明：

String str = "tst";

String str2 = str.replaceAll("ts", "y");

System.out.println(str2);

输出结果：

indexOf
public int indexOf(String str)
返回第一次出现的指定子字符串在此字符串中的索引。返回的整数是
试验证明：

String str = "tstdddwz";

System.out.println(str.indexOf("wz"));

输出结果

注意此时下标是从0开始的。

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/liyangbing315/archive/2010/05/22/5616648.aspx

分享到：

时间复杂度与 P,NP,NPc | java 精度计算问题

2010-08-25 22:41
浏览 526
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论