信息论:如何识别误导人的错误信息?
这一讲,我会围绕“如何识别误导人的信息”这个线索展开。
掌握准确信息的好处我们不多说了,特别是当别人得到的信息是片面的、支离破碎的,而你掌握的信息是准确全面的时候,你的优势是巨大的。经过这十多讲的课程,我大致介绍了和信息产生相关的理论,大家平时不妨用这些理论对当下很多消息进行一下过滤,去伪存真,高效率地接收真正有用的信息,同时避免被一些错误和带有偏见的信息误导。
前面我介绍量化度量信息增量的作用时,讲了如果根据道听途说的消息炒股是没有什么好处的,其背后一个原因就是片面而不准确的信息会误导人。
那么误导人的信息都有哪些特征呢?这讲我希望你记住它的三大特征,以后不管什么信息,你都能用这三大标准先对它进行一下过滤。
首先,刻意要引起你注意的人,常常会用耸人听闻的信息打动你,他们也知道那样的信息提供的信息量最大。因此,对于那些看似颠覆了你长期认知的所谓的“新知”,你要特别小心。比如说前一阵子股市有些动荡,你会发现很多人发出了这一类的信息:
- a. 昨日股市暴跌了1%;
- b. 美国政府对互联网公司动手,Google、Facebook和亚马逊一天蒸发10000亿元的财富;
- c. 由于xxxx(某个原因),股市在一周内抹去了今年以来的全部增长。
等等。
这一类消息基本上就是耸人听闻,如果你信了,然后就会心慌,难免作出错误的操作,最后损失的是你自己。那么怎样判断这样耸人听闻的信息是否真的有价值呢?我给你提供三个方法,分别是:
1.将它们放在更大的时空来考量,因为更大的时空提供了基本的信息量,而最近的消息,某一篇报道,某一个人的观点,某一本书的内容,就算信息准确,提供的也只是增量信息。这有点像图像压缩中的主帧和随后作为增量每一帧的关系。
相比主帧,后面的信息量是很小的。就以美国股市为例,跌掉1%,大约会蒸发几千亿美元的市值,这看似不小,但是1%的跌幅是常有的事情。2008—2009年金融危机期间,一天跌掉10%的情况也有。也就是说,很多信息需要放回到更大的时空背景下考量,才能确定它们真正的意义。
类似的,上面第三条信息说抹去全年增长,听起来挺吓人的,但是再看两眼细节就不足为虑。那句话是5月份说的,而之后7个月,股市的走势还没有确定,而且那之前所谓的今年以来的增长不过几个百分点,在历史上,股市一周跌几个百分点属于正常波动。
2.要看信息的一致性。今天标题党最大的特征就是标题和内容不一致。信息的一致性是信息本来的特征,但是人为地加入了很多虚假信息后,就不一致了,标题党便是如此。
上述第二条信息,它骇人听闻的地方在于所谓的10000亿元。对于一般人来讲,这确实是一个不得了的数字,看了标题以后的第一印象是这三家公司倒大霉了,甚至可能要有关门危险了。
但是,这篇报道的标题玩了两个猫腻,首先它把这三家公司的市值由美元转化成了人民币。显然,如果标题说,下跌了1000多亿美元,唬人的效果显然不如说10000亿元。编辑刻意费劲地专门转化成币值较小的货币,显然带有欺骗的目的。
其二,文章并不告诉你这三家公司的市值是多少,事实上它们加起来有2.3万亿美元,1000多亿美元的跌幅大约占了6%,虽然跌幅不算低,但是没有多可怕,市场上跌幅超过它们的公司还很多。
3.对于从一大堆信息中抽取的信息,要看它们的失真率。我们在前面讲语音压缩和图像压缩时说过,压缩过的信息和原来的信息相比,要尽可能避免失真,为此,只能过滤高频的信息,也就是不太经常出现,高出正常频率的信息,而不是相反。
那些故意误导人的信息则相反,它们把背景的低频信号过滤掉,保留个别高频信号,这就如同一张图片中蓝天上有一只鸟,那些人把背景的风景都过滤掉了,把那只鸟刻意留下来。然后他们刻意渲染——整个风景就是一只鸟,这样的信息过滤后,失真率是极高的。
比如在很多人印象当中,印度这个国家天天发生强奸案,这个印象并没有错,因为印度每天平均要发生100起强奸案。但是,如果你考虑到印度有13亿人口,这个比例并不高,在全世界大约排90多名,不仅比南美洲和非洲低一个数量级,比欧洲很多国家也低很多,甚至比国民大多信佛教的泰国低好几倍。
维基百科上有各国详细的数字,有兴趣的朋友可以去查查看,那些数字都有出处,即使有所偏差,但是大致的范围是可信的。对此,印度的妇女和儿童部长也专门解释过,说真实的情况并不像大家想象的那样。
印度在这方面给全世界的印象极差。还用我们照片的例子来解释,你可以把印度想成一幅面积巨大的风景画,背景是一大片蓝天的,如果你一定要在上面找小鸟,可能会找到很多,因为那幅画面积实在太大。也就是人口基数太大导致犯罪数量很大。
当然,国际社会对印度印象不好的另一个原因是大家痛恨印度政府在这方面无所作为,但这和案发率是两回事。由于报道印度强奸案这一类的信息特别容易吸引眼球,久而久之,印度这个黑锅是背上了。
但公平地讲,它多少有点冤枉。如果说印度这方面的负面形象,多少有它本身的问题,但是很多类似的信息则是有人刻意过滤低频信息,只保留个别高频信息的结果。这一点大家要特别注意。
好,我刚才介绍了误导人的信息的第一个特征,那就是耸人听闻,对付这类信息,我给了你三个办法,分别是放大更大的时空里判断,看信息的一致性,以及看看是否刻意过滤了大背景的低频信息提高了信息失真率。
误导人的信息的第二个特征是没有出处,或者只有一个无法验证的出处,几乎所有的和阴谋论相关的信息都有这个特点。
2002年,Google在做新闻搜索时,要把某一个新闻所有的信息都归为一类,然后要溯源它们各自的信息来源。通常一个被上百家媒体报道的消息,经过这样的溯源之后,来源通常不会超过5个,这最初的5个甚至更少的来源,如果没有官方的报道,或者专业的媒体采访,可信度通常都比较差。
很多信息,其实是某个人断章取义,甚至肆意篡改之后,发布到所有媒体上的,也就是说,它只有一个不太可靠的来源,这种信息不信它也罢。
对于没有条件溯源的同学们,怎样评价这些信息呢?一个最简单的办法就是看同行评议。比如之一有关于NASA不曾登月的信息在流传,你去看看世界各国航天专家们怎么说就可以了。关于用水制氢气驱动汽车的消息,看看这方面的专家怎么说就好。
误导人的信息的第三个特征是缺乏上下文。你如果看到一条报道,说俄罗斯是全世界最大的产油国,你信不信呢?这个说法不完全算错,但是忽略了一个事实,就是时间维度。在历史上它的确曾经是最大的产油国,但是现在不是。
实际上很多时候,我们的信息要不断更新,因为很多是在变化的。很多人为了证实俄罗斯的强大,常常喜欢拿这个历史数据说事。事实上,今天它不仅产量低于沙特,更低于美国。
而在人们印象中的石油进口大国美国,其实才是世界上最大的产油国,而且它很快会由进口国变为出口国,这一点要感谢页岩气革命,有兴趣的读者可以到得到的每天听本书去听听《页岩革命》这本书。
当然,并非所有的信息都是有人要误导我们的,只是当今的信息过载,我们不能不有所防范。
我们在课程中还讲了这样五个重要的原则,你一定要记住:
- 最好、最重要的资源要用于那些出现最频繁的事情,这样分配资源最有效,其背后的原理是香农第一定律和霍夫曼编码。
- 不要将相关性当成因果关系。弱相关性对我们做事情没什么帮助,而对于强相关性,要搞清楚谁可能是因,谁可能是果,切忌因果倒置。
- 我们很多时候,要直接获得某种信息是很困难的,因此可以通过获得等价信息,得到同样的效果。
- 我们日常遇到的大部分事情,都是渐变的,因此通过增量改进,要比推倒重来效率高,这就如同对增量压缩,可以比静态压缩高很多一样。
- 由于我们遇到的信息很多,一个比较高效率表示信息的方法是矢量化,也就是将很多维度的信息映射到我们关心的几个维度。我们用到的例子是:文字的演变就是矢量化的结果。
此外,在第一个模块中有这样几个概念,也希望你能记住:
- 1.信息熵,它说明信息量和不确定性的关系。
- 2.冗余度,任何信息中都有冗余,去除冗余是今天信息处理的一项重要工作,但是,有时冗余又有它的好处,它可以避免出错。
- 3.不同信息的正交性:我们常常说的互补,其实就是某种意义上的信息正交。同一种信息用好几遍,效果不如使用两种正交的信息。不仅信息如此,打造一个团队也是如此。
从下一讲开始,我们就进入新的模块,关于信息传输的。我们下一讲再见!