你真的理解“信息”是什么吗?

黑格尔说过:存在即合理。

大学任何一个专业的开设都是有其合理性和实际价值的,或者说具有有别于其他专业的地方。如果说经济学专业重在研究人类经济活动的规律,建筑学专业则是重在研究建筑与环境,物理学的朋友就是研究物质运动的规律……那么我们这些通信狗研究的是什么呢?

这个问题让我思考了良久,我想如果用一个词去概括我们的专业所学的话,那就应该是——信息。“信息“本身就是一个内涵丰富又带点神秘色彩的词,在信息化大潮的当今,无数人在探索人工智能、区块链、5G 通信这些时新的信息技术,可有多少人真正思考过“信息”是怎样的一个东西呢?或者从某种意义上来说,“信息”究竟是是不是真实存在这件事就够值得商榷的了,就更不用说人人都在用着手机,wifi,各种移动终端的当下,又有多少人了解你的微信,语音,视频,图片究竟是怎么在互联网间传输的呢?

开始写这个专栏的初衷是希望能记录一些我自己在学习过程中的收获与想法,也希望能用一种通俗直白的文字表达形式来跟读者讲解信息论与通信原理中的一些知识和思想,帮助一些非信息通信类专业出身的朋友更深入地了解有关“信息”这么一回事,从而更清楚地了解我们所处的时代中信息与通信的魅力。

一直以来我都认为,人类学习的其中一个目的就是更好的认识世界,比如经济学专业的学生在看股票的走势时,肯定会比普通人获取更多有用的信息;摄影专业的会对光影变化更加敏感;机械专业的会对器件的内部构造和其中的关键零件如数家珍。这个世界就是一个纷繁复杂的系统,它是由无数小部件遵循一定的规律组成在一起的。企图去看清这个系统的全貌并不现实,但仅认识系统内的细部是可行的。这可以映射为我们大学的每一个专业,不同专业负责研究这个系统的某一个细节,最后有机地组合在一起,就形成了这个神奇的能够持续运转下去的“世界系统”。

回到我之前所说的,我们研究的是什么呢,是“信息”。这两个字在这个时代似乎格外耀眼,不错,从某种意义上来说,我们在努力学习的同时,也在努力去认知这个信息时代背后的关于“信息”的那些事,包括信息的产生,传输,接收,处理等等。我认为,对于一个大学生而言,提高自己对于所处世界的认知是第一要义,考试则次之。我也希望更多的信息通信专业的学生可以认同并接受我的这一观点,以此勉励自己在信息通信领域上的深耕创新。

所以,废话不再多说了,接下来就让我们开始进入“信息”的世界吧。

-------------正文从这里开始

Part.1 信息的定义:你如何理解信息?

之前我们扯了这么多“信息”,但大多数人对于“信息”的认识都是模糊不清的,所以信息究竟是什么是我们需要探讨的第一个问题。
我们在学习哲学时,遇到越常见的概念和定义,往往越难以去理解和深入认识。比如说物质、存在这些司空见惯的词,很难准确解释。而信息也如此,如果要你用一句话去定义信息是什么,我想大多数人的脑子里都是一片空白。因为它真的有些抽象,没有明确的选项供我们选择,也不能通过逻辑推理和数学演算得到答案。为了总结概念,我们需要先从另一个视角来看。

1.1 信息,客观世界三大要素之一

假如你现在就是上帝,你低下头去看这个世界,你觉得构成这个客观世界的三大要素是什么?
哈佛大学的一个研究小组曾给出过著名的资源三角形理论,也就是组成客观世界的三大基本要素:物质,能量,信息,并且他们给出了一个看似十分有说服力的论据:没有物质,什么都不存在;没有能量,什么都不会发生;没有信息,什么都没有意义。
前两点比较好理解,学马哲时我们背过,物质是指在人的意识之外独立存在又能为人的意识所反映的客观实在,没有了物质,也无所谓存在与否。而在物理上,我们习惯将物质当作是能量的载体。由爱因斯坦的质能方程E=m*c^2 足以见得,在某种意义上能量与物质可以统一。
而第三点,没有信息,一切都没有意义,该如何理解呢?此处我们可以回归到生活中,我们现在出去旅游,大多数人都习惯发ins 发朋友圈,到了景点不发点美食、美景、美照,似乎就相当于没来,即使不发给人看,也得拍点照片视频之类的留做纪念。而这里的照片,视频,文字是现实世界中真实存在的东西,都是记录信息的载体。但如果这些载体没有保存下来,那么多年后有谁会知道你去过什么地方呢?逻辑慢慢变得清晰了,至少我们可以确定的是,“信息”的存在的确是有意义的。
首次将信息与物质、能量相提并论的是控制论的创始人——美国科学家维纳。他说:
机械大脑不能像初期唯物论者所主张的“如同肝脏分泌出胆汁”那样分泌出思想来,也不能认为它像肌肉发出动作那样能以能量的形式发出思想来。信息就是信息,不是物质也不是能量。不承认这一点的唯物论,在今天不能存在下去。
这位伟大的“控制论之父”大约在一百多年以前就预言了信息的特殊性,这实属不易。而他给信息的定义是“信息是人们在适应外部世界,并使这种适应反作用于外部世界的过程中,同外部世界进行互相交换的内容和名称”。看到“作用”,“交换”这一类的字眼,可知这个定义里包含了浓浓的“控制论”的味道。在此笔者不愿再深究,因为今天的主角并不是诺伯特.维纳,而是另一位比他晚出生二十二年的、另一学科的奠基人——“信息论之父”克劳德.香农。
自此,我们似乎才刚刚来到了这段追寻“信息”的旅程源头,接下来让我们来背一段历史。

1.2 从0到1,开启信息时代的三年

1949 年,是历史上值得铭记的一年,因为这一年里发生了一件改变世界的大事——中华人民共和国成立了!不过这个似乎和今天的主题并没有半毛钱关系,不错,确实没什么关系,但是从1949 年再往前推三年,我们来看看世界上发生了哪些举世瞩目的事情。
1946 年 2 月14 号情人节那天,世界第一台通用计算机ENIAC 在宾夕法尼亚大学诞生,它每秒能进行5000 次加法运算,或400 次乘法运算,在现在看了可能微不足道,但却是计算机史上的一大里程碑,永远的写在了所有计算机通识基础书籍的绪论中。
1947 年12 月,贝尔实验室的肖克利,巴丁和布拉顿组成的研究小组,研制出了一种点接触型的锗晶体管,并对其进行了测试。这是这个世界上最早的实用半导体器件,它能把音频信号放大100 倍,可外形却比火柴棍还短。这一发明彻底改变了电子与电信行业,并在七十多年后的今天,成为了当下绝大多数工科学生的噩梦— —模拟电路中的三极管。
图片
在十个月后的1948 年,贝尔实验室的另一位年轻科学家在《贝尔系统技术学报》上发表了一篇《A Mathematical Theory of Communication/通信中的数学原理》。谁能想到,这篇短短五十来页的文章会成为日后信息论和现代通信领域的奠基之作,而这篇《通信中的数学原理》的唯一作者正是年仅32 岁的克劳德.香农。读到这里,读者可能会联想到四百年前艾萨克.牛顿爵士的那本《自然哲学中的数学原理》——不错,香农就是信息通信领域的牛顿,而现如今通信领域的最高奖也是以“香农奖”命名。
图片
这短短三年的科技成果和理论创新,囊括了二十世纪后人类社会从原子时代迅速过渡到信息时代的几大催化剂,从第一台通用计算机,到实用半导体技术,再到香农的信息论,无论你所学专业是否与其相关,只要是身处这个时代——这个属于信息的时代,就应该时刻对这些伟大的发明创造者保持敬畏。接下来,就让我们来给《信息论》开个小头。

Part.2 从物理到数学:你如何考量信息?

2.1 信息如何传递:通信系统

传递信息的过程是什么?那当然就是我们学习的通信了。实际应用中的通信非常复杂,所以在理论研究中我们将通信的整个过程简化为五个基本模块:信源、编码器(发送器)、信道(存在噪声)、解码器(接收器)、信宿,这就是香农的一般通信系统模型。
图片
如图所示,信息就在这五个模块间传递。其实这个通信的概念模型在日常生活中是随处可见的,为了帮助大家理解,我举一个贴近生活的例子。白天你走在路上,遇见一位熟人,你对他说“早上好”,这个时候你就可以看作信源,而你的嘴巴就是信号的发射端,把你想要传达的信息发出去。你的声音通过空气传播给你的同学,在这里空气就是传输信息的信道。假设这个时候没有噪声的干扰,那么传到你朋友的那里,这时你朋友就是信宿,他的耳朵就是信号的接收端,通过接收信息并做处理就可以理解你的意思,于是也回复了一句:早上好,之后的流程就和刚才一样了。这种通信双方都能同时发送和接受的系统,我们用专业点的术语,叫全双工通信。如果这时有人在你身边唱歌,导致你的朋友误将你说的话听成了“吗你好”,那么这就叫噪声引起了失真。
对于一般的通信系统而言,噪声是一个必然存在的因素,没有哪个信道能够摆脱噪声的干扰,所以我们就需要采用各种手段去使噪声的影响降到最低。这部分的内容属于通信原理的知识,有时间我会在这个专栏后面的文章中再做讲解。
图片
显然,信息是真实存在的,但却看不见摸不着,此所谓只可意会。所以我们需要给信息找一个载体,因为在通信系统中传播的其实是信息的载体,它可以是一种符号或者物理量。注意这个载体非常的重要,从某种意义上来说,它并不是信息本身,但却包含有信息,就很像我们哲学里的内涵与外延的关系,就比如你去超市买东西,结帐的时候问售货员阿姨多少钱,阿姨说:一共五块钱,这里传达的信息就是你需要支付五块钱,而如果售货员阿姨今天喉咙有点不舒服,伸出了五个手指头,那意思也是很清楚了,还是五块钱。所以这里不管是回复的一句话还是一个手势,他们都是信息的载体,而这个载体所承载的就是我们之前讨论的信息。
通常情况下,在整个通信系统中,由于信息总是从信源发出来的,所以我们可以将信息理解为信源的内涵。所谓内涵,也就是他所要表达的内容和含义,而这种内涵的载体可以从两个层面上去看,第一个是物理层面,这时我们将其称之为信号,理工科的学生完全可以把它看作是一种可以描述,测量和显示的物理量。信息以某种信号参量的形式载荷到信号上,就比如说我们有一个正弦波,通过改变它的频率来传递信息,数字0 对应正弦波的频率f1,数字1 对应正弦波的频率f2,(先不要管为何要用0 和1)然后我们在刚刚那个一般通信系统模型的发射端发送一个cos(f1t)或者cos(f2t),注意,这里的cos 信号是一个波,是可以被检测到的,接收端接受到就可以知道你发送的是0 还是1 了(如果要问为什么一定要发个cos 信号而不是其他的,这个也是信号与系统里的内容,此处我们着重去聊信息,故最好不要纠结)而这种传信方式我们在数字通信中称之为2FSK 调制,现在主要应用于广播通信当中。这里不必深究原理,读者只需记住,信号即物理量可以作为承载信息的一种载体。
图片
除了物理层面,我们的另外一个层面就是数学层面了。数学层面上,我们用来承载信息的是消息,或者说是符号,这个要如何去理解呢?举个例子,考试的时候填答题卡,ABCD代表的是正确选项或者错误选项,这里的信息就是消息所要描述和度量的对象。
通信研究过程中,我们通常把信源要发送的消息看作是一组消息序列。假如这组序列只由0 和1 组成,那么就是【100101101……】这就是由一堆符号组成的二进制时间序列。通常,对于某个时刻的某一个符号,它只有0 和1 两种可能,而且总是随机的,也就是说,在你接收到这个信号之前,它是0 还是1是未知的。当然在实际上,对于大部分信道而言,即使你接收到了消息也不能百分百确定其承载的信息。序列中的每个符号都是一个随机变量,而给这些随机变量加上一个时间轴,就变成了随机过程。(随机过程是一个让人难过的话题,毕竟高校流传着“随机过程随机过”的说法……)根据符号间的相关性,我们又可以给信源序列分类,比如符号间相互独立,我们称其为无记忆信源;如果后一个符号仅与前一个有关,就叫它二阶马尔可夫链。类似的定义还有很多,这个我会在后面的文章中再去做介绍。
在此我们来小结一下上面对于信息的讨论。在物理层面,信息的载体是信号,在数学层面,信息的载体是消息。它们两者都是消息的外延,而信息则是其内涵,这中外延与内涵的关系在哲学上我们也可以看作是一种辩证而统一的关系。

2.2 信息如何度量:不确定性与量化计算

2.2.1 一个重要的专业词汇:不确定性

论如何考量“信息”,我想没有谁比信息论的奠基人香农更有发言权了吧。虽然在1948 年才发表了那篇举世瞩目的《A Mathematical Theory of Communication》,但事实上香农在1939 年写给麻省理工的万内瓦尔·布什的信件中就曾提到:“时断时续地,我一直在研究信息的一般系统的某些基本属性。”那个时候他还在用intelligence 去指代信息,但现在我们习惯于用information 去表示信息,后者的覆盖面显然要更广一些。言归正传,香农对信息的研究首先是从对其特性的思考开始的,于是这就又引出了一个问题——信息具有什么特性?
图片
你认同也好,不认同也罢,作为信息通信专业的学生,我们必须充分了解信息最大的特性,那就是不确定性。举个例子,我们经常会说某物的信息量很大,那么这个信息量是用什么来衡量的呢?这就要谈到不确定性了,一段信息的不确定性越大,其提供给我们的信息量也就越多。据此,香农对于信息的定义是:信息是用来消除不确定性的东西。这个定义相比维纳的就要简洁了许多,由此足见数学专业出身的香农对于语句精炼的偏执。
信息既然和不确定性相关,那么不确定性要如何去度量呢?根据我们刚刚谈到的随机过程,每一组信源序列都可以看作是一组随机序列,那么我们在哪里学到了随机序列这个东西呢?不错,就是概率论。所以,想要去度量不确定性就必然要借助概率的知识,不过在讲这个之前我想先来聊一聊量化的重要性。
2.2.2 通信系统中的量化
说到量化,这个东西最早的定义是什么呢,说到这里又要扯一堆数据采集的东西了,不过这部分与我们聊的主题也有联系,所以笔者也就不惜笔墨来侃一侃了,不感兴趣的读者可直接跳过本节。现在假如我们有一个模拟的音频信号,我们想把这段信息传播出去,我们要怎么做呢?如果接受者就在你对面就不会有多少麻烦事了,直接你去说他来听便是。而如果你们相隔很远呢?这时候你可能想到了贝尔的电话(实际上电话不是他发明的),在电话里加几个动圈加几个磁铁,就能把声信号转换为电信号,再通过电话线传出去。
图片
可是这样的信号真的可靠吗?显然是不可靠的。只要中间有人把这个信号拦截下来,就可以窃取通话者之间传递的信息,而且传输过程太容易受噪声的干扰。所以我们现在追求的是什么?是数字化,就是把模拟信号变成数字信号再传出去。别以为这只是一个小小的A/D 转换过程,其中大有玄机,要经过采样,保持,量化,编码这一系列复杂的操作。其中采样对应的是模拟信号的时间离散,而量化则对应的幅度值的离散化。所谓离散化,就是将取值连续的某个量按照某种规则转化成有限个离散值的过程。
到这里,可能就有人要问了,为什么要量化呢?直接用连续值不行吗?答案是确实不行,计算机处理不了连续的数据,因此只能把量化后的数据通过某种编码规则进行编码,再交给计算机进行处理。这其中编码又是一门大学问,其中需要用到的一个非常关键的东西就是我们之后要讲到的信息熵,此处不再赘述。

2.2.3 合二为一:引入信息熵

上面谈到的是狭义的量化,其实我们日常生活中经常会说到“量化”这个词,正如我们要把高校分成一本,二本,分成985,211 ,这些分级和量化在某种意义上是等同的。不同的输入通过某种转换关系输出到不同的层级,这种变换的好处是易于比较和计算,因为现实生活中有很多的东西在直观上来讲是很难去比较的。
在很多年前,光影一直是最困扰摄影师的因素。不管是前期拍摄还是在暗房的后期处理中,大家对于光都没有一个统一的认识。直到1940 年,伟大的美国风光摄影师安塞尔.亚当斯提出了分区曝光理论,他将区域内的光暗明暗程度分成了十一个等级,以此为基础来完成自己的摄影创作。对于一些模糊不清的东西,我们往往需要找到一个好的度量方式来进行研究,而“信息”恰恰就是这样的东西。
之前我们说到,不确定性的度量要借助概率,这点很好理解。对于一个事件而言,它发生的概率越小,那么它的不确定性就越大。所以一旦发生,所包含的信息量也就越大。而同样的,发生概率越大,它的不确定性就越小,一旦发生,所包含的信息量也就越小,这里可以看出,概率的大小与信息量是呈反比的,但我们如果要直接将概率作为度量信息量的标准,就有很多的不便。比如两个概率相加会使得概率变大,同时导致信息量的减少。因此,我们希望找到一个量或者函数可以满足可加性。
香农在《通信中的数学原理》中已经深入探究过这个问题了,但我们现在试着不用概率,而用最少二元问题的个数来衡量信息量的大小。所谓二元问题就是说,你问的问题回答者只能用“是”或“否”来回答。比如说今年NBA 季后赛,一共16 支球队,最后究竟谁能赢得奥布莱恩杯呢?现在假设总决赛已经打完了,但很可惜你这几个月都在准备高考,没看(其实这个假设看上去很不合理)。考完后,你问朋友哪个队拿了总冠军,朋友不直接告诉你,而是让你来猜。于是你想到了数据结构里学的二分查找法,对16 支队依次编号,比如骑士是1 号,勇士2 号,火箭3 号……你首先问冠军在9 到16 号吗,朋友告诉你不在,于是你又问那在5-8 号中吗,朋友告诉你还是不在。依此类推,只需要问四次就可以找到最后的总冠军球队。所以,四次之后果然不出你所料,4 号湖人总冠军。所以这里二元问题的最小值就是4,也就是说这个问题包含的信息量是4(再加上某个表示信息的单位)
图片
以上的这种算法,是另一位信息论的先驱学者哈特莱于1928 年提出的:如果一个等概信源有N 个不同的符号,那么它的不确定性就是N 的以二为底的对数,即logN。但显然信源的每个符号不可能是等概的,所以这个理论有其不足之处。
而在1948 年的那篇论文中,香农严格的定义了信息熵这个东西,用以度量信息量以及不确定性的大小。
图片
其中,信息熵需要满足三大要求:单调性,非负性,以及可加性,我相信这里是会困扰很多通信学子的地方,为什么信息熵要以-log(p)的形式表示呢,而不能取其他的函数,比如1/p,exp(-p)之类的?这就是考验数学功底的时候了,很遗憾我翻看了香农老先生的那篇遗作,其中并没有给出证明,也许是觉得太简单了吧,于是我手推了一遍:
图片
其实这就是一个熵的公理化结构的证明。Feinstein 等人曾证明过,当信息满足对概率p 的递减性以及可加性的条件下,这个信息熵的公式是唯一的。是吧,所以说对数是多么的神奇。当然这个式子并不是涵盖所有情况,这只能用来度量离散单符号信源的不确定性,对于连续信源就有其他的方式去计算其信息量了,虽然形式都大抵类似,但在此处我并不想再去扩展了。
图片
自此,我们已经引入了信息熵的概念。也就是说,我们之前讨论了这么久的古老神秘而内涵丰富的“信息”,可以被定量的研究了。这意味着,按照香农的这一套体系,可以比较两个随机事件发生带来的信息量谁大谁小了,直接把概率分布带进去算,比较其信息熵的大小就行。很多外行可能会远远低估这个公式的价值,但事实上它确是整本经典信息论的基石。不管是后面的信源无失真编码定理,还是信源信道编码定理,都会涉及到信源的信息熵。
至于为什么香农同学当时要用“熵”这个词,毫无疑问是借鉴了物理学中的对熵的定义。但如果有人想将这两者统一起来,我想还是有些困难的。读者也不必去深究两者间的联系,专注于信息熵即可。
介绍到此,我想能坚持看到这里的读者应该对信息有了一个更深入的了解,今天这篇文章至此也就接近尾声了。我之后也会在这个专栏下更新一些我学习中新的想法和收获,希望我所写的这些东西可以帮助到更多非信息通信专业的朋友感受到信息通信的魅力。由于笔者今年才大三,才疏学浅,文字之中或有错误之处。还请各位高手多多指正,我都会欣然接受,最后谢谢关注。