趣文网 > 作文大全

坤鹏论:为什么同一本书中文版比英文版薄?

2020-11-20 13:20:01
相关推荐

信息熵高,不代表说的话、写的文字的品质和内涵就比别人高。——坤鹏论

一、香农如何计算文字系统的信息熵?

首先,要明确一点——不管什么文字系统,英语或者汉语,亦或者法语、德语,本质都是一套符号系统。

在只关心文字数量不考虑内容的香农眼中,管它是英文字母,还是汉字,都只是一个符号而已。

这就是坤鹏论早先提到的,很多看似复杂无解的事情,只有敢于用奥卡姆剃刀披荆斩棘般地精简后,才能找到清晰的路径。

让我们再来看一下香农的信息熵公式:

公式中出现的Pi指的是符号系统中某个符号出现的概率。

这个概率就是某个符号在全体文字材料中出现的比例。

比如:有一本100万字的书,经过统计发现,某个字在该书中出现了1万次。

那么该字在这本书中的概率就是:1万÷100百万=0.01=1%。

只要把某个符号系统中所有符号的概率全都统计出来,然后再代入到信息熵公式,就能算出该符号系统的平均信息熵了。

所以,信息熵的一个重要应用领域是自然语言处理。

比如:对于人们来说,一本50万字的中文图书它的平均有多少信息量?

常用汉字约7000字,假设每个汉字是相同的出现概率,每个汉字的信息熵大约为12.77比特。

计算公式为:-log(1/7000)=12.77

不过,和其他语言一样,汉语同样遵循Zipf定律,也就是少数文字使用频率远远高于其他文字。

实际中,前10%汉字占常用文本的95%以上。

再考虑词语等上下文关联的因素,每个汉字的平均信息熵大约是5比特左右。

那么,一本50万字的中文图书,信息熵平均约是250万比特。

阅读它,就可以消除平均约为250万比特的不确定性,也就是能够接收(输入)约250万比特的信息量。

不过,坤鹏论再次强调一次,信息量≠内容质量。

所以,这本书的品质如何,信息熵不知道,香农也不知道。

信息熵的高和低或者信息量的多或少,根本不代表说的话、写的文字的品质和内涵是高还是低。

再确切些讲,香农的信息熵,在自然语言处理中是用来对语言文字进行数据压缩的,和语言的品质无关。

二、从公式入手看影响信息熵的两大关键

从信息熵公式我们可以看出,影响它的因素只有两个:

一是,符号的数量;

二是,符号的概率分布。

坤鹏论之前讲过:公式最能揭示本质。

显然,它们就是信息熵的本质。

那么,只要围绕这两个因素探究,结合文字系统,我们就能更加深入地了解信息熵了。

1.符号的数量

首先,看一下符号数量的问题。

为了避免概率分布的影响,我们假设所有符号的概率分布是相等的,也就是等概率分布,这时:

如果,符号数量=n;

那么,每个符号的平均信息熵=-log(1/n)

从上面这个公式我们可以快速得出结论:

符号越多,该符号系统的平均信息熵就越大。

中文就是最典型的例子。

汉字的数量并没有准确数字,大约近十万个(目前比较大的汉字字库收入有出处汉字91251个)。

不过,就如前面所说,咱们日常所使用的汉字只有几千字。

据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字则已到99%。

简体中文与繁体中文的统计结果差不多。

正因为中文汉字平均信息熵比英文字母高。

所以,同样一本书,用中文版要比英文版薄不少。

这就是言简意赅最实锤的体现。

让我们再逆向假设,继续反转理解一下,加深印象。

假设英文字母不再是26个,而是1000个。

等概率分布的情况下,信息熵=-log(1/1000)=9.97,明显比27(26个字母+1个空格)的-log(1/27)=4.75高了一倍多。

按照调查数据显示,母语为英语的人的单词量约为20000~35000之间。

那么,如果是1000个字母,就意味着由两个字母和三个字母的单词就足够日常使用了。

而目前英文单词平均长度在4~5个字母,简单地掐指一算,差不多可以节省约50%的字母量。

想想看,一本书,如果光是字母减少的数量,就能让该书变薄不少。

但有趣的是,世界上以字母表为主的文字,大都是20~30左右的字母组成。

2.符号的概率分布

传统热力学中,熵被定义为对系统的宏观测定,并没有涉及概率分布。

而概率分布却是信息熵的核心定义。

坤鹏论举例说明一下概率对信息熵的影响。

假设只有两个符号的文字系统,如果一个符号的出现概率是90%,另一个为10%,该系统的信息熵为:

-[0.9×log(0.9)+0.1×log(0.1)]=-(0.9×-0.152+0.1×-3.33)=0.47

但是,如果两个字符是等概率的话,这套文字系统的信息熵应该是-log(1/2)=1。

从上面的计算结果,我们可以得出结论:

符号概率分布越不均匀,信息熵越小;符号概率分布越均匀,信息熵越高。

其中原因在于,符号概率分布越均匀,每个符号与它前后符号的关联度越小。

也就意味着每个符号都很关键,不能丢。

所以,符号的不确定性高,信息熵大,可以输入的信息量大。

比如:中文一句话如果丢掉太多字,相当于缺少了大量增加确定性(可输入)的信息,本来就很强的不确定性变得更强,自然无法明白其表达的真正含义,从而无法还原。

从概率的角度分析,这是因为字与字的关联度小,意味着每个字出现的概率差不多,所以不容易猜出下一个字是什么。

从这一点看,我们是不是也能够客观地理解,为什么中国人说话声音会比较大些了?

还有为什么传话游戏中,一句并不复杂的话,最后总会被传得面目全非?

同时,再看看下面的内容,你也应该明白,为什么使用字母的国家的人,则可以轻声细语地聊天。

如果概率分布越不均匀,符号出现的关联越强,符号就越能省略,因为它们可以提供的信息少。

比如:英文表示进行时的ing,还有表示名词的tion等,即使丢一个字母,也不会妨碍阅读。

MST PPL HV LTTL DFFCLTY N RDNG THS SNTNG

上面这段是香农当初举的例子。

英语熟练的人几乎都能念出它的原文——most people have little difficulty in reading this sentence。

前面我们比较的是英文字母和汉字的信息熵。

那么,如果是英文单词呢?

信息熵是不是会高呢?

总结下来,英文一句话中每个单词前后的关联性更强,因此,英文单词的信息熵更低。

1951年,香农发表了《书面英语的预测和熵》论文,说明信息论不但可以应用于计算机语言,而且可以应用于自然语言,他还计算了英语的熵,主张从数理统计的角度去分析人类语言,他计算出单个英文单词的信息熵只有2.62。

另外,文字的概率分布也会因不同领域而存在较大不同。

像“熵”这个字,人们平常极少遇到它,其信息熵相当高。

但是,在热力学、统计力学里,它就是个常客,出现概率相当高,所以在这些专业领域,“熵”的信息熵比较低。

当然,不论什么语言,估计单位字符信息熵最高的文章莫过于数学论文,因为,数学家能用公式,绝不用文字。

三、总结:你理解文字系统的信息熵了吗?

结合香农和维纳的公式,我们可以得出不管什么样的文字系统:

每个字符的平均信息量(维纳的信息量公式)和每个字符的平均信息熵(香农的信息熵公式),数字相同,只是前面有没有负号的区别。

每个字符多少比特的平均信息量,就是可以减少相同比特量的信息熵。

那么,如果说有个消息的信息熵是100个比特,说明它还可以输入100个比特的信息量。

显而易见的是,相对信息熵高的汉语所需要的字符比英语少了不少。

由于信息熵、信息量和字符出现的概率是相反的关系,我们还可以得出:

一种语言每个字符的平均信息熵越大,说明每个字符的出现的概率越小,说明其字符数量越多,体现了该语言字符集的复杂程度;

一种语言每个字符的平均信息熵的计算,是对该语言字符系统的不确定性的度量;

一种语言中每个字符平均信息熵越大,说明该语言每个字符对信息的描述能力越大。

本文由“坤鹏论”原创,转载请保留本信息

请您关注本百家号,坤鹏论自2016年初成立至今,创始人为封立鹏、滕大鹏,是包括百度百家、头条、雪球、搜狐、网易、新浪等多家著名网站或自媒体平台的特约专家或特约专栏作者,目前已累计发表原创文章与问答6000余篇。

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

保护环境的英语作文 学无止境作文 家乡的风俗作文六年级 可爱的小狗作文 下象棋作文 交通安全作文 孝道作文 家的作文 秋天 作文 过年的作文400字左右 我的母亲600字作文 端午节包粽子作文 有一种甜作文 妈妈的手作文 未来的世界作文 作文我的好朋友 我的成长作文 反思作文 故事作文 难忘的小学生活作文600字六年级 我想对您说作文400字 我最喜欢的一本书作文 20年后的家乡作文 我的家乡二年级作文 荡秋千作文 桥的作文 四年级上册作文 借景抒情的作文 坚持不懈的作文 美丽的校园作文