HTML - 字符编码


字符编码是将字节转换为字符的方法。为了正确验证或显示 HTML 文档,程序必须选择正确的字符编码。

计算机上最常见的字符集或字符编码是 ASCII -美国信息交换标准代码,这可能是电子编码文本中使用最广泛的字符集。

ASCII 编码仅支持大小写拉丁字母、数字 0-9 以及一些额外字符,总共 128 个字符。您可以查看完整的可打印 ASCII 字符集

然而,许多语言使用带重音的拉丁字符或完全不同的字母表。ASCII 不处理这些字符;因此,如果您想使用任何非 ASCII 字符,您需要了解字符编码。

国际标准组织创建了一系列字符集来处理不同的国家字符。对于英语和大多数其他西欧语言的文档,使用广泛支持的编码 ISO-8859-1。

以下是世界各地正在使用的字符集列表及其描述。

先生编号 字符集和描述
1

ISO-8859-1

拉丁字母第 1 部分

覆盖北美、西欧、拉丁美洲、加勒比、加拿大、非洲

2

ISO-8859-2

拉丁字母第 2 部分

覆盖东欧

3

ISO-8859-3

拉丁字母第 3 部分

涵盖欧洲东南部、世界语、其他杂项

4

ISO-8859-4

拉丁字母第 4 部分

覆盖斯堪的纳维亚半岛/波罗的海地区(以及 ISO-8859-1 之外的其他地区)

5

ISO-8859-5

拉丁/西里尔字母第 5 部分

6

ISO-8859-6

拉丁/阿拉伯字母第 6 部分

7

ISO-8859-7

拉丁/希腊字母第 7 部分

8

ISO-8859-8

拉丁/希伯来字母第 8 部分

9

ISO-8859-9

拉丁语 5 字母表第 9 部分

与 ISO-8859-1 相同,只是土耳其字符替换了冰岛字符

10

ISO-8859-10

拉丁语 6 拉丁语 6 拉普兰语、北欧语和爱斯基摩语

11

ISO-8859-15

与 ISO-8859-1 相同,但添加了更多字符

12

ISO-2022-JP

拉丁/日语字母第 1 部分

13

ISO-2022-JP-2

拉丁/日语字母第 2 部分

14

ISO-2022-KR

拉丁/韩语字母第 1 部分

随后成立了 Unicode 联盟,以设计一种方法来显示不同语言的所有字符,而不是为不同语言提供这些不同的不兼容的字符代码。

因此,如果您想要创建使用多个字符集中的字符的文档,您将能够使用单一 Unicode 字符编码来实现。

因此,Unicode 指定了能够以特殊方式处理字符串的编码,以便为其包含的庞大字符集腾出足够的空间。它们被称为 UTF8、UTF-16 和 UTF-32。

先生编号 字符集和描述
1

UTF-8

一种 Unicode 翻译格式,以 8 位为单位,即以字节为单位。UTF8 中的字符长度可以为 1 到 4 个字节,因此 UTF8 的宽度可变。

2

UTF-16

一种 Unicode 翻译格式,以 16 位为单位,即以 Short 形式出现。它的长度可以是 1 或 2 个 Short,从而使 UTF16 的宽度可变。

3

UTF-32

一种 Unicode 翻译格式,采用 32 位单位,即长整型。它是一种固定宽度的格式,长度始终为 1“长”。

Unicode 字符集的前 256 个字符对应于 ISO-8859-1 的 256 个字符。

默认情况下,HTML 4 处理器应支持 UTF-8,XML 处理器应支持 UTF-8 和 UTF-16;因此,所有兼容 XHTML 的处理器也应该支持 UTF-16。