坤鹏论：为什么同一本书中文版比英文版薄？

2020-11-20 13:20:01

相关推荐

信息熵高，不代表说的话、写的文字的品质和内涵就比别人高。——坤鹏论

一、香农如何计算文字系统的信息熵？

首先，要明确一点——不管什么文字系统，英语或者汉语，亦或者法语、德语，本质都是一套符号系统。

在只关心文字数量不考虑内容的香农眼中，管它是英文字母，还是汉字，都只是一个符号而已。

这就是坤鹏论早先提到的，很多看似复杂无解的事情，只有敢于用奥卡姆剃刀披荆斩棘般地精简后，才能找到清晰的路径。

让我们再来看一下香农的信息熵公式：

公式中出现的Pi指的是符号系统中某个符号出现的概率。

这个概率就是某个符号在全体文字材料中出现的比例。

比如：有一本100万字的书，经过统计发现，某个字在该书中出现了1万次。

那么该字在这本书中的概率就是：1万÷100百万＝0.01＝1%。

只要把某个符号系统中所有符号的概率全都统计出来，然后再代入到信息熵公式，就能算出该符号系统的平均信息熵了。

所以，信息熵的一个重要应用领域是自然语言处理。

比如：对于人们来说，一本50万字的中文图书它的平均有多少信息量？

常用汉字约7000字，假设每个汉字是相同的出现概率，每个汉字的信息熵大约为12.77比特。

计算公式为：-log(1/7000)＝12.77

不过，和其他语言一样，汉语同样遵循Zipf定律，也就是少数文字使用频率远远高于其他文字。

实际中，前10%汉字占常用文本的95%以上。

再考虑词语等上下文关联的因素，每个汉字的平均信息熵大约是5比特左右。

那么，一本50万字的中文图书，信息熵平均约是250万比特。

阅读它，就可以消除平均约为250万比特的不确定性，也就是能够接收（输入）约250万比特的信息量。

不过，坤鹏论再次强调一次，信息量≠内容质量。

所以，这本书的品质如何，信息熵不知道，香农也不知道。

信息熵的高和低或者信息量的多或少，根本不代表说的话、写的文字的品质和内涵是高还是低。

再确切些讲，香农的信息熵，在自然语言处理中是用来对语言文字进行数据压缩的，和语言的品质无关。

二、从公式入手看影响信息熵的两大关键

从信息熵公式我们可以看出，影响它的因素只有两个：

一是，符号的数量；

二是，符号的概率分布。

坤鹏论之前讲过：公式最能揭示本质。

显然，它们就是信息熵的本质。

那么，只要围绕这两个因素探究，结合文字系统，我们就能更加深入地了解信息熵了。

1.符号的数量

首先，看一下符号数量的问题。

为了避免概率分布的影响，我们假设所有符号的概率分布是相等的，也就是等概率分布，这时：

如果，符号数量＝n；

那么，每个符号的平均信息熵＝-log(1/n)

从上面这个公式我们可以快速得出结论：

符号越多，该符号系统的平均信息熵就越大。

中文就是最典型的例子。

汉字的数量并没有准确数字，大约近十万个（目前比较大的汉字字库收入有出处汉字91251个）。

不过，就如前面所说，咱们日常所使用的汉字只有几千字。

据统计，1000个常用字能覆盖约92%的书面资料，2000字可覆盖98%以上，3000字则已到99%。

简体中文与繁体中文的统计结果差不多。

正因为中文汉字平均信息熵比英文字母高。

所以，同样一本书，用中文版要比英文版薄不少。

这就是言简意赅最实锤的体现。

让我们再逆向假设，继续反转理解一下，加深印象。

假设英文字母不再是26个，而是1000个。

等概率分布的情况下，信息熵＝-log(1/1000)＝9.97，明显比27（26个字母＋1个空格）的-log(1/27)＝4.75高了一倍多。

按照调查数据显示，母语为英语的人的单词量约为20000~35000之间。

那么，如果是1000个字母，就意味着由两个字母和三个字母的单词就足够日常使用了。

而目前英文单词平均长度在4~5个字母，简单地掐指一算，差不多可以节省约50%的字母量。

想想看，一本书，如果光是字母减少的数量，就能让该书变薄不少。

但有趣的是，世界上以字母表为主的文字，大都是20~30左右的字母组成。

2.符号的概率分布

传统热力学中，熵被定义为对系统的宏观测定，并没有涉及概率分布。

而概率分布却是信息熵的核心定义。

坤鹏论举例说明一下概率对信息熵的影响。

假设只有两个符号的文字系统，如果一个符号的出现概率是90%，另一个为10%，该系统的信息熵为：

-[0.9×log(0.9)+0.1×log(0.1)]＝-(0.9×-0.152＋0.1×-3.33)＝0.47

但是，如果两个字符是等概率的话，这套文字系统的信息熵应该是-log(1/2)＝1。

从上面的计算结果，我们可以得出结论：

符号概率分布越不均匀，信息熵越小；符号概率分布越均匀，信息熵越高。

其中原因在于，符号概率分布越均匀，每个符号与它前后符号的关联度越小。

也就意味着每个符号都很关键，不能丢。

所以，符号的不确定性高，信息熵大，可以输入的信息量大。

比如：中文一句话如果丢掉太多字，相当于缺少了大量增加确定性（可输入）的信息，本来就很强的不确定性变得更强，自然无法明白其表达的真正含义，从而无法还原。

从概率的角度分析，这是因为字与字的关联度小，意味着每个字出现的概率差不多，所以不容易猜出下一个字是什么。

从这一点看，我们是不是也能够客观地理解，为什么中国人说话声音会比较大些了？

还有为什么传话游戏中，一句并不复杂的话，最后总会被传得面目全非？

同时，再看看下面的内容，你也应该明白，为什么使用字母的国家的人，则可以轻声细语地聊天。

如果概率分布越不均匀，符号出现的关联越强，符号就越能省略，因为它们可以提供的信息少。

比如：英文表示进行时的ing，还有表示名词的tion等，即使丢一个字母，也不会妨碍阅读。

MST PPL HV LTTL DFFCLTY N RDNG THS SNTNG

上面这段是香农当初举的例子。

英语熟练的人几乎都能念出它的原文——most people have little difficulty in reading this sentence。

前面我们比较的是英文字母和汉字的信息熵。

那么，如果是英文单词呢？

信息熵是不是会高呢？

总结下来，英文一句话中每个单词前后的关联性更强，因此，英文单词的信息熵更低。

1951年，香农发表了《书面英语的预测和熵》论文，说明信息论不但可以应用于计算机语言，而且可以应用于自然语言，他还计算了英语的熵，主张从数理统计的角度去分析人类语言，他计算出单个英文单词的信息熵只有2.62。

另外，文字的概率分布也会因不同领域而存在较大不同。

像“熵”这个字，人们平常极少遇到它，其信息熵相当高。

但是，在热力学、统计力学里，它就是个常客，出现概率相当高，所以在这些专业领域，“熵”的信息熵比较低。

当然，不论什么语言，估计单位字符信息熵最高的文章莫过于数学论文，因为，数学家能用公式，绝不用文字。

三、总结：你理解文字系统的信息熵了吗？

结合香农和维纳的公式，我们可以得出不管什么样的文字系统：

每个字符的平均信息量（维纳的信息量公式）和每个字符的平均信息熵（香农的信息熵公式），数字相同，只是前面有没有负号的区别。

每个字符多少比特的平均信息量，就是可以减少相同比特量的信息熵。

那么，如果说有个消息的信息熵是100个比特，说明它还可以输入100个比特的信息量。

显而易见的是，相对信息熵高的汉语所需要的字符比英语少了不少。

由于信息熵、信息量和字符出现的概率是相反的关系，我们还可以得出：

一种语言每个字符的平均信息熵越大，说明每个字符的出现的概率越小，说明其字符数量越多，体现了该语言字符集的复杂程度；

一种语言每个字符的平均信息熵的计算，是对该语言字符系统的不确定性的度量；

一种语言中每个字符平均信息熵越大，说明该语言每个字符对信息的描述能力越大。

本文由“坤鹏论”原创，转载请保留本信息

请您关注本百家号，坤鹏论自2016年初成立至今，创始人为封立鹏、滕大鹏，是包括百度百家、头条、雪球、搜狐、网易、新浪等多家著名网站或自媒体平台的特约专家或特约专栏作者，目前已累计发表原创文章与问答6000余篇。

阅读剩余内容

中文版英文版同一

坤鹏论：为什么同一本书中文版比英文版薄？

中文版Win7系统设置成英文版的操作方法

如何将中文版VMware 10.0.3虚拟机改成英文版

华为鸿蒙LOGO曝光：点与线组成英文版与中文版有差异

《光明之子》中文版＋《英勇之心：伟大战争》英文版合辑正式推出

《真三国无双9》手游确认英文版先行中文版还远吗？