源代码定理


由离散无记忆源产生的代码必须被有效地表示,这是通信中的一个重要问题。为此,需要有代表这些源代码的代码字。

例如,在电报中,我们使用摩尔斯电码,其中字母由标记空格表示。如果考虑最常用的字母E ,则用“.”表示。而字母Q很少使用,用“--.-”表示

让我们看一下框图。

框图

其中S k是离散无记忆源的输出,b k是源编码器的输出,用01表示。

编码序列使得它可以在接收器处方便地解码。

让我们假设源有一个包含k 个不同符号的字母表,并且第k符号S k出现的概率为P k,其中k = 0, 1…k-1

令由编码器分配给符号S k的二进制码字具有长度l k,以比特为单位测量。

因此,我们将源编码器的平均码字长度L定义为

$$\overline{L} = \displaystyle\sum\limits_{k=0}^{k-1} p_kl_k$$

L表示每个源符号的平均位数

如果 $L_{min} = \: \: \: \overline{L}$ 的可能值 \: 最小值

那么编码效率可以定义为

$$\eta = \frac{L{min}}{\overline{L}}$$

有了 $\overline{L}\geq L_{min}$ 我们将得到 $\eta \leq 1$

然而,当 $\eta = 1$ 时,源编码器被认为是有效的

为此,必须确定值$L_{min}$。

让我们参考定义, “给定一个离散无记忆熵源 $H(\delta)$,任何源编码的平均码字长度L的界限为 $\overline{L} \geq H(\delta) $。”

简单地说,代码字(例如:单词 QUEUE 的莫尔斯电码是 -.- ..- . ..- . )始终大于或等于源代码(示例中的 QUEUE)。这意味着,码字中的符号大于或等于源代码中的字母。

因此,当 $L_{min} = H(\delta)$ 时,源编码器在熵 $H(\delta)$ 方面的效率可以写为

$$\eta = \frac{H(\delta)}{\overline{L}}$$

该源编码定理被称为无噪声编码定理,因为它建立了无差错编码。它也被称为香农第一定理