| 刘嘉亲述 |
你好,欢迎来到我的概率论课,我是刘嘉。
上一讲,我们学习了概率论的第一块基石——随机。只有弄明白了随机,才能理解我们这一讲要讲的概率论的第二块基石——概率。
这门课的名字叫“概率论”,简单说就是“论概率”,就是对概率的讨论。所以你看,“概率”是不是整个学科最基石的概念?这一讲,我们就把这个基石性的概念一次性说清楚。
概率是随机事件发生可能性的定量描述
“概率”的定义有很多,最经典的就是,柯尔莫哥洛夫于1933年给出的公理化定义。柯老师是现代概率论的奠基人之一,他的定义如下:设E是随机试验,S是它的样本空间。对于E的每一事件A赋予一个实数,记为P(A),称为事件A的概率……
打住,我知道你已经懵了。不过,我不打算用抽象的数学定义给你讲概率,这一讲不会,整门课也不会。形式化定义和公式是数学家的交流语言,可以准确、方便地传递复杂内容,甚至在我看来极具美感。但是,当你对这种语言不熟悉的时候,就很难理解它。
数学不是抽象游戏,而是要解决现实问题。对现实世界的理解和其中孕育的思想,才是数学真正的魅力。所以我给你个方便理解的定义——概率是随机事件发生可能性大小的定量描述。
这个定义有两个关键词,第一个是“随机事件”,第二个是“可能性大小的定量描述”。
先说“可能性大小的定量描述”,什么意思呢?生活里我们说,网坛名将费德勒很厉害,夺冠的概率很大。这肯定没错,但是不精确,很大是多大呢?哎,概率就是用一个数字来描述这个可能性的大小。比如,这一场费德勒赢的概率是80%。这就是一种定量的描述,就能和其他人比大小,我们也就知道谁最可能夺冠了。
回过头,再看刚才说的第一个词——随机事件,在概率论中也简称“事件”。
别被它的名字搞混了。虽然都叫“事件”,但它是个概率论的概念,和我们生活里说的“xx事件”,意义完全不一样。生活里,日本偷袭珍珠港、抗日战争爆发……都叫“事件”,是指一个已经发生的事情。而概率论中说的随机事件是什么呢?咱们看几个例子:
我们问“这一场费德勒赢的概率是多少”,那“这一场费德勒赢球”就是一个随机事件;我们问“下一次掷骰子出现6的概率是多少”,那“下一次掷骰子出现6”就是一个随机事件;我们问“今年村上春树得诺贝尔文学奖的概率是多少”,那“今年村上春树得诺贝尔文学奖”就是一个随机事件。
本质上,随机事件是概率论的一种表述方式。只有符合这种表述方式,我们才能度量它的概率。这是一种怎样的表述方式呢?
任何你关心的事情,只要设定一个条件,从可能性的角度出发,对某一个发生结果进行陈述,就可以转化成随机事件,然后度量概率。这句话很长,限定条件很多,我一一解释。
第一点限定,设定一个条件。
前面的例子,这一场费德勒赢球的“这一场”,下一次掷骰子掷出6的“下一次”,今年村上春树得诺贝尔文学奖的“今年”,都是限定条件。这些是必须的。你不能不加限定地说“人类登上火星的概率”,这就没法计算,而“人类在2050年登上火星的概率”,加上时间设定“2050年”,就可以计算概率了。
第二点限定,从可能性的视角出发。
要么,是这事儿还没发生,比如“明天下雨的概率是多少”,明天还没到,我们只能从可能性的角度提问。要么,是这件事已经发生了,但我还不知道,比如“现在我家地底下有石油的概率”,现在我家地底下有没有石油,这是个客观事实,只是我不知道,也可以预测概率。你看,不管是这件事还没发生,还是单纯的我不知道,只要是我还不确定结果,就可以从可能性的视角提出问题,度量它的概率。
第三个设定,对某个发生结果的陈述。
也就是说,陈述的必须是一个随机结果,而不是不确定性。上一讲说了,随机不等于不确定,概率论能解决随机问题,但不能解决不确定的问题。
只要按照上面三个设定表达——第一,限定一个条件;第二,从可能性的视角出发;第三,对某个发生结果进行陈述,任何事情都可以变成随机事件。再结合刚才“发生可能性大小的定量描述”,我们就明白了概率的第一层意义——概率,是对随机事件发生可能性大小的定量描述。
概率是随机事件在样本空间的比率
知道了“概率是对随机事件发生可能性的定量描述”,我们就会面临一个新问题——这种定量描述是怎么来的?
你可能会说,就是那些让人头大的复杂计算呗。没错。但我要告诉你,计算虽然复杂,但它们背后的思路却是一致的,就是计算随机事件在样本空间的比率。
这里又有了一个新概念——样本空间。其实很简单。一件事儿可能发生的所有结果,就是这件事儿的样本空间。在数学上,常常用集合来表示,所以叫“空间”。
比如抛硬币,结果不是正面就是反面,那么“结果是正面”和“结果是反面”就构成了抛硬币这件事的样本空间。再比如,每届世界杯有32支球队参赛,虽然我们不知道谁会夺冠,但夺冠的队伍无外乎就这32支,这32个结果就构成了世界杯冠军这件事的样本空间。是不是很简单?
在集合的定义下,随机事件是样本空间的一个子集,属于样本空间的一部分。拿掷骰子来说,每次掷骰子可能的结果有几个呢?6个嘛,就是1点、2点、3点、4点、5点、6点。这六个结果,就构成了掷骰子这件事的样本空间。不管是像“点数是1”“点数是2”这样单一的不能再分的结果,又称为“基本事件”,还是“点数是偶数”“点数是奇数”这样一组结果的集合,都是样本空间的一个子集,都是样本空间的一部分。
换句话说,随机事件就是样本空间的一个子集;反过来也成立,样本空间里的每一个子集,也都是一个随机事件。现在你明白“随机事件”和“样本空间”的关系了吧?就是子集和全集的关系。
而子集和全集的比率,也就是随机事件占样本空间的比率,就是这个随机事件发生的概率。掷骰子,样本空间是1-6,共六个结果,掷到1点的概率,就是1这个结果在总共六个结果中所占的比例,也就是1/6。正因为是个比率,所以概率是没有单位的,就是一个数。
有了这层含义,我们就能推导出概率的三个性质——
第一,概率永远在0和1之间,不可能是负数。
第二,样本空间里所有基本事件概率之和是1。
样本空间就是所有可能发生的结果的集,它们的概率加一块必然是100%,也就是1。一定不会出现样本空间里所有基本事件的概率之和小于1或者大于1的情况。
第三,某个随机事件不发生的概率,等于1减去这件事发生的概率。
比如,世界杯巴西队夺冠的概率是21%,那巴西队不夺冠的概率就是1-21%=79%。
当然,在数学定义中,概率有一个完整的公理体系,我这里就不一一说了,你了解这三个基本性质就可以了。
样本空间的完备性是一个幽灵
到这里,你对概率的理解已经超过90%的人了。但这一讲最后,我还想多说一点:
因为概率是随机事件在样本空间中的比率,所以我们计算概率的前提是什么?当然就是保证样本空间的完备性。也就是说,要找到所有可能发生的结果。如果样本空间压根不完备,那你算出的概率一定是错的。但问题是,样本空间的完备性是一个幽灵。
像每年的“奥斯卡最佳影片奖”,都会从入围的几部电影中评出一部最佳影片。你考虑了所有这几部电影,估算了每部电影得奖的概率,所有概率加起来也恰好是1。你觉得这个样本空间没问题吧?不,问题很大。
比如,万一当年的最佳影片空缺了呢?这不是不可能的。像2018年的诺贝尔文学奖,当年就没有评;2015年度我国国家最高科学技术奖,一等奖也没有评,空缺着。你把“空缺”这个结果放到样本空间中考虑了吗?
再比如,万一当年的最佳影片有并列的呢?这也不是不可能。近20年来,被誉为“中国奥斯卡”的金鸡百花电影节,最佳故事片、最佳男女主角就经常是“双黄蛋”,2部或两人并列。你把“并列”这个结果放到样本空间考虑了吗?
所以,样本空间的完备性就像一个幽灵,很难获得。而如果样本空间不完备,我们计算的概率就会有偏差,决策就会出错。
明白了这一点,你就会理解很多现实问题。比如经济领域中的“黑天鹅事件”,它的本质是什么呢?黑天鹅之所以无法预测,本质就在于我们完全不知道它,它压根不在我们的样本空间里,所以没法计算它的概率。只有它发生过了,我们知道它可能发生了,它才会进入我们的样本空间,它的概率才能被计算。
更深入一点,从某种角度来说,我们对世界的认识,就是对样本空间完备性的认识。原子衰变到底能放出多少种粒子?决定恒星运动的力到底有多少种?影响股票涨跌的因素到底有多少种?每一次突破性的进展,其实都是在完善我们的样本空间。
划重点
1. 概率是随机事件发生可能性大小的定量描述。
2. 概率是随机事件在样本空间的比率。
3. 样本空间的完备性是一个幽灵。从某种角度来说,我们对世界的认识,就是对样本空间完备性的认识。
最后,给你留一道思考题:
你有没有遇到过决策时忽略了样本空间的完备性,结果导致失败的经历呢?
欢迎留言和我交流。