📡 主题: 香农的信息熵思想——为什么信息量不取决于长度而取决于消除了多少不确定性,以及这对理解人生自由度的启示。
阅读时间: 约 10 分钟 · 3800 字
1. 信息的量
今天我想与您分享的话题是:信息论。等等!您可先别走,等看完这两期文章,你一定会后悔为什么没有早点知道它。
咱们先来看两条「消息」:
- 是家哦篇钱吗看好,里额日从省不。
- 他们对经商兴趣尤为浓厚,也同样喜爱寻常的乐趣,他们爱做爱、爱看电影、爱泡海水澡。
第一条消息,是我随手敲下的一串乱码;第二条消息,则出自加缪《鼠疫》中的一句话。直觉上,你可能会认为第二条的信息量更大,毕竟它是一个通顺的句子,表达了明确的含义。而第一条则完全是乱码。
但香农的信息论却告诉我们,第一条「消息」的信息量反而更大。为什么?因为第二条消息中,存在大量「冗余」。即便删掉其中的一些字,你依然能轻松推断出它们原本是什么。比如:
他们-经商-趣尤-浓厚,也-样喜-寻常-乐趣,-们爱做爱、爱-电影、-泡海水澡。
这个被删减后的句子理解起来没有任何障碍,也就是说,第二条消息是可压缩的。
而第一条消息就完全不一样了。拿掉其中任何一个字,你都无法判断它原本是什么。这是一条不可压缩的消息。至于它是否有意义,那是另一回事。它也许是密码,也许是情书,但关键在于:你无法省略其中任何一个字符。
也就是说,一段消息所包含的信息量,并不由它的长度决定。就像人生一样,同样年纪的两个人,他们的人生经历的丰富程度可能大不相同。
好,那么问题来了:怎么衡量信息量呢?
2. 如何衡量信息的量
有些字是纯粹多余的,它们就完全不提供新信息,比如「之乎者也」。有些字虽然不算多余,但是我们猜也能猜个八九不离十,它们提供的信息量也就比较小。比如:
他们的经商-趣尤为浓厚。
你猜中间这个省略的字是什么?汉语里以「趣」结尾的词并不多,放在这里,可能的无非是"乐趣""兴趣""有趣"之类的。现在我告诉你,这个字是"兴",你肯定不会惊讶。所以"兴"这个字所提供的信息其实很少。
这就引出了我们今天要谈的这个天才思想。现代信息论的奠基者克劳德·艾尔伍德·香农(Claude Elwood Shannon)提出了一个想法:一个事物所包含的信息量,并不取决于它有多长,而取决于它消除了多少「不确定性」。
比如现在有一个人,生活极其规律,每天「家里—公司」两点一线。如果你是侦探,负责观察他的位置,并随时向我汇报,那你每次给我的信息,无非就是"在家"或"在公司"二选一。即使你不告诉我,我也有一半的把握猜对,如果是白天我几乎能肯定他在公司里。所以你给我的信息就没什么价值。
可如果这个人常年满世界跑,今天在澳洲,明天在北美,后天又跑到欧洲。在你告诉我之前,我完全猜不到他的位置。这时,你给我的信息就非常有价值。
在信息出现之前,这个人的位置对我来说是一种不确定性。而你的信息,消除了这种不确定性。原来的不确定性越大,你的信息就越有价值。
所以,可供选择的范围越广,该选择的信息量就越大。
接下来,我们要用一个正式的概念命名这个思想——信息熵(香农熵)。
3. 信息熵
不要被「熵」这个词吓到。香农从物理学中借鉴了「熵」的概念,用来描述一个系统的混乱程度。在信息论里,信息熵用来描述这段消息中字符的不可预测性。
一段字符串中,如果字符的出现越杂乱、越多样、越难提前猜到,那么它的信息熵就越高;反过来,如果内容高度规律、重复、容易预测,即便很长,信息熵也可能很低。
换句话说,信息熵衡量的不是字数,而是惊喜程度。不确定性越大,被消除的不确定性越多,这条信息所包含的信息量也就越高。
信息熵,本质上就是把一条消息中出现的所有字符,按照它们各自出现的概率,对信息量做一次加权平均。
如果一段消息只能在 0 和 1 这两个符号中选择,那么它的信息熵上限只有 1 比特;如果可以在 26 个字母中选择,最大信息熵大约是 4.7 比特;而如果是在约 2500 个常用汉字中选择,信息熵则可以达到 11.3 比特。这就是为什么中文是一种「信息量更大」更复杂的语言。
你如果没看懂公式也没关系,只要记住一句话就行:不确定性越大,被消除的不确定性越多,这条信息所包含的信息量也就越高。
4. 空话与有用的话
我们刚才说的这些概念,出自香农在 1948 年发表的那篇划时代论文——《通讯的数学原理》。当时的香农只有 32 岁。这个理论一经提出,立刻引起巨大反响,因为它给人们提供了一个全新的看世界的角度。
比如领导讲话,说的都是空话、套话。他说前半句你就能猜到后半句,他一说"团结一致",你就知道后面是"向前看",他一说"众志",后面跟着肯定是"成城",那他就算讲三个小时也毫无信息量,因为他一撅屁股,你就知道他要干嘛。他要说的车轱辘话你全知道,他必须得说一些套话之外,让你预测不了的话,才有信息量。
5. 自由权=信息权
从信息的角度来看,最重要的不是你说了什么,而是你能说什么。
信息,并不在于你说了什么,而在于你是在多大的不确定性中做出的选择。信息,来自意外。而一个人一生能创造多少信息,归根结底,取决于他拥有多少自由。
比如你每天按时上下班,从不迟到。你今天又来上班了,这算新闻吗?当然不算,这个消息的信息量等于0。但你有一个同事,想来就来,不想来就不来,神出鬼没。他今天居然来上班了,这才是一个新闻。他拥有更大的自由。
我们每个人都希望能度过值得回忆的一生。那所谓值得回忆,不就是提供了大量有效有趣的信息吗?如果像古代农民一样,一生都只做一样的事情,那肯定算不上信息量很大、有趣的一生。
从信息角度来讲,人生就是要活一个「选择权」。如果你从来都是按部就班不敢越雷池半步地生活,干什么都是高度可预测的,那你的人生就不值得记录。而如果你的生活跌宕起伏充满意外,那就值得记录,甚至大家会抢着给你出自传,拍电视剧。
比如上级交给你一个任务,任务已经非常明确告诉你第一步干什么、第二步干什么、到什么地方、找什么人接洽、话术要怎么说。如果你只能完全按照这个剧本执行任务,请问你贡献了什么信息呢?没有,你没有可行使的自由。
反过来说,如果你有能力不按剧本走,你敢在关键时候选择给自己加戏,你的行为让吃瓜群众们都很意外,你才算是留下了信息。
所以,从信息论的角度看,它所推崇的价值观是:自由、自主选择权、多样性、不确定。我们不只是想老老实实地活着,我们还想活出「信息」来,要在这个世界上留下自己的痕迹。
阿!闰土的心里有无穷无尽的希奇的事,都是我往常的朋友所不知道的。他们不知道一些事,闰土在海边时,他们都和我一样只看见院子里高墙上的四角的天空。......我躺着,听船底潺潺的水声,知道我在走我的路。我想:我竟与闰土隔绝到这地步了……然而我又不愿意他们因为要一气,都如我的辛苦展转而生活,也不愿意他们都如闰土的辛苦麻木而生活,也不愿意都如别人的辛苦恣睢而生活。他们应该有新的生活,为我们所未经生活过的。—《故乡》
可是,如果信息熵高的生活就是高效、幸福的生活,为什么我们还要按时上班?为什么我们在和别人打交道的过程中,还保留了很高的可预测性呢?如果压缩到极致的信息最高效,那文言文就是一种高度压缩的语言,还特别省竹简,为什么还要普及白话文?
这么做当然是有道理的,这就是香农的第二个洞见,也更加精彩,我们下期再说。
核心观点
信息的本质
- 信息量不由长度决定,而取决于消除了多少不确定性
- 信息熵衡量的是惊喜程度,即不可预测性
自由与信息
- 人生的信息量取决于拥有的自由度和选择权
- 值得回忆的一生,本质是输出高信息量的一生