2.3 字符集

字符串是用引号括起来的字符集合,字符集包含哪些内容,常见的字符集有哪些?

2.3.1 ASCII字符集

最基本的字符集是:ASCII码字符集,包含了基本的英文字母,数字,标点符号和一些控制字符。

常识:ASCII(美国信息交换标准代码)字符集

常见ASCII码的大小规则:0~9<A~Z<a~z。

  1. 数字比字母要小。如 “7”<“F”;
  2. 数字0比数字9要小,并按0到9顺序递增。如 “3”<“8” ;
  3. 字母A比字母Z要小,并按A到Z顺序递增。如“A”<“Z” ;
  4. 同个字母的大写字母比小写字母要小32。如“A”<“a” 。

几个常见字母的ASCII码大小: “A”为65;“a”为97;“0”为 48

2.3.2 GB2312/GBK字符集

GB2312/GBK用于给汉字编码,

GB2312标准使用两个字节,共收录6000多个常用汉字和其它符号。

GBK规范兼容GB2312、BIG5等编码中的所有汉字,使用两个字节,共收录21000多个汉字和图形符号。

2.3.3 Unicode标准

Unicode标准收录世界上所有语言中的所有字符。最流行的Unicode编码方案为UTF-8。

Python3的源文件默认以UTF-8编码。在这种编码下,世界上大多数语言的字符可以在字符串,标识符和注释中同时使用。

UTF-8使用可变长度的字节来表示每一个字符。对于网络上普遍使用的ASCII码,UTF-8使用一个字节表示,这样兼顾了效率和便利。