- HTML教程
- HTML - 主页
- HTML - 概述
- HTML - 基本标签
- HTML - 元素
- HTML - 属性
- HTML - 格式设置
- HTML - 短语标签
- HTML - 元标签
- HTML - 注释
- HTML - 图像
- HTML - 表格
- HTML - 列表
- HTML - 文本链接
- HTML - 图像链接
- HTML - 电子邮件链接
- HTML - 框架
- HTML - Iframe
- HTML - 块
- HTML - 背景
- HTML - 颜色
- HTML - 字体
- HTML - 表单
- HTML - 嵌入多媒体
- HTML - 字幕
- HTML - 标题
- HTML - 样式表
- HTML - JavaScript
- HTML - 布局
HTML - 字符编码
字符编码是将字节转换为字符的方法。为了正确验证或显示 HTML 文档,程序必须选择正确的字符编码。
计算机上最常见的字符集或字符编码是 ASCII -美国信息交换标准代码,这可能是电子编码文本中使用最广泛的字符集。
ASCII 编码仅支持大小写拉丁字母、数字 0-9 以及一些额外字符,总共 128 个字符。您可以查看完整的可打印 ASCII 字符集
然而,许多语言使用带重音的拉丁字符或完全不同的字母表。ASCII 不处理这些字符;因此,如果您想使用任何非 ASCII 字符,您需要了解字符编码。
国际标准组织创建了一系列字符集来处理不同的国家字符。对于英语和大多数其他西欧语言的文档,使用广泛支持的编码 ISO-8859-1。
以下是世界各地正在使用的字符集列表及其描述。
先生编号 | 字符集和描述 |
---|---|
1 |
ISO-8859-1 拉丁字母第 1 部分 覆盖北美、西欧、拉丁美洲、加勒比、加拿大、非洲 |
2 |
ISO-8859-2 拉丁字母第 2 部分 覆盖东欧 |
3 |
ISO-8859-3 拉丁字母第 3 部分 涵盖欧洲东南部、世界语、其他杂项 |
4 |
ISO-8859-4 拉丁字母第 4 部分 覆盖斯堪的纳维亚半岛/波罗的海地区(以及 ISO-8859-1 之外的其他地区) |
5 |
ISO-8859-5 拉丁/西里尔字母第 5 部分 |
6 |
ISO-8859-6 拉丁/阿拉伯字母第 6 部分 |
7 |
ISO-8859-7 拉丁/希腊字母第 7 部分 |
8 |
ISO-8859-8 拉丁/希伯来字母第 8 部分 |
9 |
ISO-8859-9 拉丁语 5 字母表第 9 部分 与 ISO-8859-1 相同,只是土耳其字符替换了冰岛字符 |
10 |
ISO-8859-10 拉丁语 6 拉丁语 6 拉普兰语、北欧语和爱斯基摩语 |
11 |
ISO-8859-15 与 ISO-8859-1 相同,但添加了更多字符 |
12 |
ISO-2022-JP 拉丁/日语字母第 1 部分 |
13 |
ISO-2022-JP-2 拉丁/日语字母第 2 部分 |
14 |
ISO-2022-KR 拉丁/韩语字母第 1 部分 |
随后成立了 Unicode 联盟,以设计一种方法来显示不同语言的所有字符,而不是为不同语言提供这些不同的不兼容的字符代码。
因此,如果您想要创建使用多个字符集中的字符的文档,您将能够使用单一 Unicode 字符编码来实现。
因此,Unicode 指定了能够以特殊方式处理字符串的编码,以便为其包含的庞大字符集腾出足够的空间。它们被称为 UTF8、UTF-16 和 UTF-32。
先生编号 | 字符集和描述 |
---|---|
1 |
UTF-8 一种 Unicode 翻译格式,以 8 位为单位,即以字节为单位。UTF8 中的字符长度可以为 1 到 4 个字节,因此 UTF8 的宽度可变。 |
2 |
UTF-16 一种 Unicode 翻译格式,以 16 位为单位,即以 Short 形式出现。它的长度可以是 1 或 2 个 Short,从而使 UTF16 的宽度可变。 |
3 |
UTF-32 一种 Unicode 翻译格式,采用 32 位单位,即长整型。它是一种固定宽度的格式,长度始终为 1“长”。 |
Unicode 字符集的前 256 个字符对应于 ISO-8859-1 的 256 个字符。
默认情况下,HTML 4 处理器应支持 UTF-8,XML 处理器应支持 UTF-8 和 UTF-16;因此,所有兼容 XHTML 的处理器也应该支持 UTF-16。