KINLONG
  • Home
  • Profiles ▼
  • Communities ▼
  • Apps ▼
  • Metrics
  • Moderation
首页
  • ▼
  • Log In
  • Share
  • ?
  • IBMIBM

Communities

This community can have members from outside your organization. 宣传社区

  • Log in to participate
0d5a4565-f6ce-42a1-ac3b-cdfaaad6889f Blog

▼ Tags

 

▼ Similar Entries

【概率论】07 | 频率法:概率是对发生...

Blog: 宣传社区
KM Admin 4b0b5240-2731-1037-9513-91eec91f24f4 kmadmin@kinlong.cn
Updated
244 people like thisLikes 244
CommentsComments 60

【概率论】06 | 概率度量:建立整体确...

Blog: 宣传社区
KM Admin 4b0b5240-2731-1037-9513-91eec91f24f4 kmadmin@kinlong.cn
Updated
244 people like thisLikes 244
CommentsComments 71

【概率论】05 | 概率计算:定义问题比...

Blog: 宣传社区
KM Admin 4b0b5240-2731-1037-9513-91eec91f24f4 kmadmin@kinlong.cn
Updated
242 people like thisLikes 242
CommentsComments 50

【概率论】04 | 独立性:随机事件的相...

Blog: 宣传社区
KM Admin 4b0b5240-2731-1037-9513-91eec91f24f4 kmadmin@kinlong.cn
Updated
249 people like thisLikes 249
CommentsComments 65

Re: 【职场课堂】概率:对世界可能性的...

Blog: 仓储管理
马万燕 ec354440-b761-1036-8d3c-ef16cba5f6da
Updated
42 people like thisLikes 42
No CommentsComments 0

▼ Archive

  • September 2023
  • July 2023
  • June 2023
  • November 2022
  • September 2022
  • August 2022
  • July 2022
  • June 2022
  • May 2022
  • April 2022
  • March 2022
  • January 2022
  • December 2021
  • November 2021
  • October 2021
  • September 2021
  • August 2021
  • July 2021
  • June 2021
  • April 2021
  • March 2021
  • February 2021
  • January 2021
  • December 2020
  • November 2020
  • October 2020
  • September 2020
  • August 2020
  • July 2020
  • June 2020
  • May 2020
  • April 2020
  • March 2020
  • February 2020
  • December 2019
  • November 2019
  • October 2019
  • September 2019
  • August 2019
  • July 2019
  • June 2019
  • May 2019
  • April 2019
  • March 2019
  • February 2019
  • January 2019
  • December 2018
  • November 2018
  • October 2018
  • September 2018
  • August 2018
  • June 2018
  • December 2017
  • April 2017

▼ Links

  • 在线图片编辑器

▼ Blog Authors

宣传社区

View All Entries
Clicking the button causes a full page refresh. The user could go to the "Entry list" region to view the new content.) Entry list

【概率论】08 | 大数定律:局部频率不是整体概率

KM Admin 4b0b5240-2731-1037-9513-91eec91f24f4 kmadmin@kinlong.cn | | Tags:  大数定律 概率论 ‎ | 64 Comments ‎ | 385 Views
 
 
 
 

【概率论】08 | 大数定律:局部频率不是整体概率

 

讲者 | 刘嘉

 

你好,欢迎来到我的概率论课,我是刘嘉。

 

上一讲我们从整体上介绍了频率法,知道了当数据无限的时候,频率就将趋于概率。

这给我们认识世界带来了很大的信心。因为我们知道,我们可以用某一件事已经发生的频率,去预测它未来发生的概率了,也就有了通过历史预测未来的可能。

 

而频率法的基础,正是大数定律。所以这一讲,我就带你详细了解一下大数定律这个概率论中的“黄金定理”。

 

大数定律证明了整体的确定性

 

上一讲说了,雅各布花20年时间证明了大数定律。其实准确地说,他证明的是“弱大数定律”。

 

什么是弱大数定律呢?就是说,试验的数量越多,频率接近真实概率的可能性越大。注意,这里说的是“可能性”。也就是说,弱大数定律只证明了,随着数据的增加,频率接近概率的可能性越来越大,而不是100%的一定接近。这在数学上有个专业的名词,叫“依概率收敛”。

 

弱大数定律是一个伟大的证明。雅各布的伟大之处就在于,他找到了对抗局部随机性的办法,用频率构建起了确定的整体概率。通过他的证明我们知道,不管局部怎么随机,整体概率稳定的可能性是非常大的。

 

但整体概率稳定的可能性很大和一定稳定,还是有些差别的。只有一定、100%的稳定,才是真正的确定性。

 

一个世纪前,苏联数学家、概率论的先驱柯尔莫哥洛夫(Kolmogorov)在雅各布的基础上,做出了更加严密的证明,也就是“强大数定律”。

 

他通过计算证明,随着数据越来越多,频率接近概率不仅是可能性越来越大,而是几乎一定。也就是说,随着数据越来越多,频率最终一定会接近真实概率。

 

到此为止,我们先用弱大数定律找到了整体,又用强大数定律确定了整体一定是稳定的。大数定律又被称为“黄金定理”,它让我们真正能用整体的确定性来对抗局部的随机性。

 

现实中的频率都是局部频率

 

有了整体的确定性,我们就能用大数定律搞定这个世界了吗?

 

很遗憾,不是的。

 

因为大数定律起作用有个限制条件,只有在数据无限的情况下,随机事件发生的频率才等于它的概率。但上一讲说了,无限是个数学概念,现实中哪有什么无限呢?

 

无论我扔多少次硬币,都是有限次数的;无论我记录了多少次飞行的数据,都是有限次数的;无论我记录了一个球员多少场比赛投篮的命中情况,都是有限次数的。准确地说,现实中所有的事情都是有限的。我们记录的所有频率,都只是局部频率。

 

问题是,只有数据量足够多的时候,局部频率才会接近真实概率。当数据量很少的时候,一件事发生的频率可能和它的真实概率相差很大。

 

举个例子吧。英国和法国曾经共同研制了一款超音速客机,叫“协和式客机”,1976年投入使用,从巴黎飞到纽约只需要3小时20分钟,比普通民航客机节省超过一半的时间。

 

协和式客机不仅拥有当时最高级别的安全设计,还有当时最高级别的安全保障,所以在长达24年的飞行中,它没有发生过一起致死事故,一度被认为是世界最安全的飞机。直到2000年7月25日,协和式客机出现了一次坠机事故。

 

截止那个时候,协和式客机总共飞行了八万多次,因为这次坠机事故,它的致死事故率立即从24年来的0上升到了八万分之一,也就是每百万次飞行失事12次。而作为对比,波音737的飞行超过一亿次,它的致死事故率只有百万分之0.4,只有协和式客机的1/30。

 

这是协和式客机唯一一次重大事故。但因为这次事故,它一下子从世界上最安全的飞机变成了最危险的。仅仅三年之后,协和式客机就停飞了。

 

你说波音737真的比协和式客机安全30倍吗?

不一定。因为协和式客机的飞行数据太少了,只有区区八万次,它出事故的频率和真实的事故率之间,可能有很大的误差。

而这个误差到底有多大呢?那次失事是意外,还是飞机的设计真的有缺陷?八万分之一的致死事故率到底比真实概率大,还是比真实概率小?这些我们都无法知道,因为没办法让协和式飞机再飞一亿次了。

 

 

我们只知道,当数据有限的时候,局部频率和整体概率之间是有误差的。只有随着数据量的增加,局部频率才会越来越接近于整体概率。大数定律就像一根绳索,用整体的确定性约束着局部的随机性,随着数据的增加把频率这个口袋越勒越紧。

 

整体不需要对局部进行补偿

 

这种整体对局部的约束作用,是怎么进行的呢?

 

很多人会有一种朴素的想法,叫作“补偿思维”。举个例子,当硬币连续抛了10次都是正面朝上后,很多人就认为,下一次反面朝上的概率肯定得更高一些。因为只有这样才能补偿不平衡的状况,要不然怎么保证最终硬币正面朝上的概率还是50%呢?

 

看起来很合理,但我要告诉你的是,这种思维是错的。整体不需要通过补偿来对局部产生作用,大数定律并不通过补偿来实现。

 

还是刚才的例子,假如抛硬币前10次都是正面,那想让正面朝上的概率稳定在50%,后面是不是得抛出更多的反面来补偿呢?不需要。

比如,我们再抛1000次,假设500次正面,500次反面,没有补偿吧?现在正面的频率是多少呢?510除以1010,下降成了50.50%了。抛10000次,假设5000次朝上,5000次朝下,还是没有补偿,这时候正面朝上的频率,就变成了50.05%,非常接近于50%了。

 

打个比方,把一勺糖放在一杯水里,你会觉得很甜,可是放到大海里呢?海水的味道几乎不会有任何改变。我们并没有把糖从大海里取出来,糖仍然在,只是大海里的水太多了,一勺糖对它的影响就被削弱,小到可以忽略不计了。就像网上被大家吐槽的,五块钱的玛莎拉蒂跑车的优惠券,优惠五块钱,对买玛莎拉蒂跑车没影响呀。

 

 

明白了吧?大数定律不会对已经发生的情况进行补偿,而是利用大量的正常数据,削弱那部分异常数据的影响。正常数据越多,异常数据的影响就越小,直到小到可以忽略不计。

 

整体通过均值回归对局部起作用

 

可问题是,我们怎么保证未来一定有大量的正常数据呢?换句话说,整体的确定性到底是如何保证的呢?

 

这就要涉及到另一个词——均值回归。

 

均值回归的意思是说,如果一个数据和它的正常状态偏差很大,那么它向正常状态回归的概率就会变大。现实中,均值回归的例子很多。比如,身高特别高的人,孩子往往不如他高;连续几年超高收益率的基金经理,后几年往往神奇不在……怎么理解这种现象呢?

 

其实,均值回归更准确的叫法应该是“趋均值回归”,趋向均值的方向回归。所以它产生作用的对象,是那些特殊的、异常的、极端的数据。这些异常的状态是没法长期持续的,所以回归正常值的概率会变大。不过,至于是比正常值稍微高一些,还是稍微低一些,都有可能,完全是随机的。

 

比如,一个同学正常的数学水平是80分,这次超水平发挥考了100分,下一场考试,他大概率考不到100分,但可能考90分,可能考80分,也可能考70分。这些都比100分正常,都更接近他的真实水平,所以都是均值回归。而不是说上次考100分,这次只能考60分、50分来补偿上次的高分。

 

总之,大数定律不需要补偿,而是通过均值回归,通过产生大量的正常数据,削弱之前异常数据的影响。

 

明白了这个道理,再去审视我们的生活,很多现象就好理解了。比如我们经常会说一些俗语,运气不好的时候,会说“三十年河东,三十年河西”;打牌或者玩游戏连着输的时候,会说“否极泰来”。怎么理解这些话呢?

严格地说,都有一定的道理,但又都不全对。

 

为什么说有一定的道理呢?因为它们蕴含了朴素的概率思维,知道在大多数情况下,不正常的状态难以持续。正常情况下,谁的运气也不可能一直坏嘛。

 

为什么说它们不全对呢?因为不管是“三十年河东,三十年河西”,还是“否极泰来”,背后都蕴含着刚才我们说的补偿思维,认为三十年河东后,之后三十年一定河西;“否极”后一定会“泰来”,一定有好运气。

 

 

而我们现在知道,大数定律不需要通过补偿来实现。极度的坏运气过后不一定就有好运气,而是通过均值回归,让运气回到不那么坏的正常状态。所以更准确的说法应该是,“否极”后,可能“泰来”,也可能是回到运气不好不坏的状态,都有可能。

 划重点

1. 局部频率不等于整体概率。现实中遇到的都是局部频率,和真实的整体概率之间会存在差值。  

2. 大数定律不需要靠补偿来实现,而是通过均值回归,用大量的正常数据淡化、削弱不正常数据的影响。

 

最后,给你留一道思考题:

你还能找到类似于“三十年河东,三十年河西”“否极泰来”这样的俗语吗?能不能用这一讲的内容分析一下?

欢迎留言跟我交流。

 

下节预告

 

说完了频率,学会了计算概率,我们就能清晰的衡量一件事的价值,从而做出科学决策了吗?这个问题,我们下一讲再说。

我是刘嘉,我们下一讲再见。

 

  • Add a Comment Add a Comment
  • Edit
  • More Actions v
  • Quarantine this Entry
Notify Other People
notification_ex

Send Email Notification

Quarantine this entry

deleteEntry
duplicateEntry

Mark as Duplicate

  • Previous Entry
  • Main
  • Next Entry
Feed for Blog Entries | Feed for Blog Comments | Feed for Comments for this Entry
  • Home
  • Help
  • IBM Support Forums
  • Bookmarking Tools
  • Server Metrics
  • Mobile UI
  • About
  • IBM Connections on ibm.com
  • Submit Feedback