中国IDC圈2月17日报道:1987年,是印度传奇数学家拉曼努扬(SrinivasaRamanujan,1887-1920)的百年诞辰。为了纪念他,有一系列的活动。当代著名统计学者, 出生于印度的劳氏(C. Radhakrishna Rao,1920),也应邀做了三场演讲。之后,印度统计学研究所(IndianStatistical Institute)基于劳氏的演讲稿,于1989年,为他出版了统计与真理一书。此书于1997年发行第二版。
在第一版的序文中,劳氏提到:
学生时代,我主修数学一种从给定前提下演绎结果的逻辑。后来我念统计学一种从经验中学习的理性方法,及从给定的结果验证前提的逻辑。我已认识到数学及统计,在人类为提昇自然知识,及有效管理日常事务所做的一切努力中,占有重要性。
我相信:
在最终的分析中,所有知识皆为历史。
在抽象的意义下,所有科学皆为数学。
在理性的世界里,所有判断皆为统计。
这一段话,大致说明数学及统计的重要性,及其各自的内涵。
翻开统计史,信赖区间,是另一著名统计学者,出生于波兰,1938年才移民至美国的奈曼(JerzyNeyman,1894-1981),于1934年演讲中首度提出。他的演讲结束后,大会主席包雷(Arthur Lyon Bowley, 1869-1957)于致词中提到,“我不很确定此信心不是一信心戏法”。要知奈曼信赖区间的概念刚提出时,大部分的统计学者,包括被视为是现代统计学之创始者,英国的费雪(Sir Ronald Aylmer Fisher, 1890-1962,常以R.A.Fisher称之)均难以接受。在所谓95%信赖区间中,那95%究竟是指什么?是概率吗?如果是,那又是什么的概率?虽奈曼取巧地以信赖区间,来称呼此一他创造出来的东西,而避用概率一词。但包雷及其同行,当然一眼便看穿这个手法。这段过程,可参考Salsburg(2001)Chapter12(但该书中的A.L.Bowley应该是G.M.Bowley),及Sawilowsky(2003)一文。
岁月匆匆,七十多年过去了,今日统计学家,当然已完全弄懂信赖区问的意义。对不同的参数,不同的分布,可有不同的信赖区间;即使同一参数且同一分布,也可以不同的方法,得到不同的信赖区间。有时因条件不足,或计算复杂等原因,只好退而求其次,得到近似的信赖区间。当然这时需要一些条件,及利用一些定理。信赖区间亦可比较优劣。要知统计里有各种推论方法,但因处理的是随机现象,少有“倚天既出,谁与争锋”的方法。而评比时,也要订出评比准则。否则就像有个停止不动的钟,及一每日慢1分钟的钟,如何判定何者较准?前者可是每日皆有完全准确的时刻,后者却是每1440天(一天有1440分),才有一完全准确的时刻。不讲清楚如何评比,将会各说各话。
追根究底,还是不少学习者,未能正确了解概率的涵意。
概率的意义
一骰子有6个面,一掷之下,会得到偶数之概率为何?骰子看起来没有异样,就假设每个面出现的概率皆相同,即均为1/6。而偶数面有2,4,及6等3个。因此所求之概率为3/6。这就是所谓古典的概率,基本假设是“相同的可能性”。先求出观测的现象共有几种可能,再求出其中有几件是我们有兴趣的。将后者除以前者,即为所要的概率。虽说是“古典”,这种概率的意义,至今仍处处可见。採用的范围包含诸如抽签、玩扑克牌,及玩乐透彩等。又如某项工作徵才,报名的有82人,录取5人。若没有什么特别的资讯,便只能假设每人被录取的概率皆相同,即皆为5/82。
2009年7月底8月初,世界高尔夫球王老虎伍兹(TigerWoods),参加在美国密西根州举行的别克公开赛(Buick Open)。第1轮打完,落后领先者多达8杆,排名并列95。引发他可能难逃职业生涯,首次连续2场比赛(前一场是英国公开赛(The Open Championship,在英国之外常称为BritishOpen)),提前被淘汰的话题。不过老虎毕竟不能小觑,打完前3轮后,伍兹跃居首位。
这时大家看法丕变,一致认为这座冠军盃,几乎可说是他的囊中物了。因过去的纪录显示,伍兹如能带着54洞领先进入决赛圈,战绩是35胜1败。你要不要猜后来他赢了没有?运动比赛,往往有过去资料可参考,此时相同的可能性便不宜用了。36次中成功35次,“相对频率”为35/36(约0.972)。这种以相对频率来解释概率,是常有的作法。适用能重复观测的现象。会不会有爆出冷门的时候?当然有。只是对一特定事件,用过去多次同样情况下,该事件发生的相对频率,来估计下一次事件发生的概率,乃是在没有更多资讯下,常被认为一属于客观的办法。
某君看上一女孩,惊为天人,觉得这是他今生的新娘。评估后信心满满,自认追上的机会有8成。旁人却都不看好,问他8成这一数字,是如何冒出来的?该君举证历历,一个又一个的迹象,显示那女孩对他很有好感。这个0.8的概率,就是所谓主观概率。主观概率当然也可基于过认识概率35去一些客观的事实。只是即使面对同样的资料,不同的人,可能有不同的判定,因而给出不同的主观概率(看过他其实没那么喜欢你(He’s Just Not That Into You)吗?片中那个叫Gigi的女孩,便常误解男生所透露的讯息)。有些现象就是不能重复观测。如核能电厂的意外,及彗星撞地球等。以追女孩为例,大约少有女孩,会让你做实验,反覆地追,然后数一数其中成功几次,来定下她会被你追上的概率。对这类无法重复观测的现象,在谈概率时,主观概率就常派上用场。每天早上出门,我们不是惯于抬头看天,判断一下今天下雨的概率有几成?只是往往父母认为的概率会大些,该带伞,而小孩所认为的下雨概率会小些。
虽说“主观”,但仍要合理。例如,考试有及格与不及格。若认为会及格的概率为0.9,这没问题,人总要有点自信,但若又同时担心有0.8的概率会不及格,那就不行了。各种可能性发生概率相加要为1。即使是主观,可以独排众议,仍须自圆其说。不能说,既然是主观,便可以任意自定各事件之概率。因此不论是那一种对概率的解释,都自然地,或说必须要满足一些共同的规则。这点大家应能理解。
上述三种是常见对概率的解释,大抵也就是人们评估事件发生可能性之大小的几种思维。虽是针对不同的情况,但常能交互着运用。大家都听过曾参杀人的典故吧!有个与曾子同名的人杀人,好心者告诉曾母“曾参杀人”。曾母说“吾子不杀人”,继续织布。过一会儿,又有人来说“曾参杀人”。曾母仍继续织她的布,这么好的儿子怎可能杀人?但当第三人跑来说“曾参杀人”,曾母就害怕了,丢掉织布器具翻墙而逃。所谓“其母惧,投杼踰墙而走”。这故事出自战国策秦策二。因此当拿到一铜板,可主观地认为,政府发行不该会有偏差,两面出现的概率,应皆为1/2(这也可以是基于相同可能性之想法)。若投掷10次,正面出现8次,可能觉得有些奇怪。若继续投掷,结果100次中,出现80个正面,这时相对频率的观点,很可能便将显现。类如曾母,调整看法,不再认为此铜板公正。
当然,你可以不信邪,不论投掷的结果如何,皆认为那只是短暂的情况,意志坚定地认为这是一公正的铜板。这并没有不行,就像会有母亲,即使再多的人证,只要她没亲眼看到,她就不信儿子会杀人。要知随机现象,事件只要概率为正,不论概率值多小,便皆可能发生。毕竟铜板正面出现的概率为何,只有天晓得。但引进概率与统计,乃为了协助我们做决策可以更精准。而决策可以与时推移,并非不能更改。有如气象局对颱风会带来多少雨量,须密切掌握新的动向,而随时修正。要有随机的思维,如前言中劳氏所说的,从给定的结果,验证前提。因此针对100次投掷,出现80个正面,多数人面对此结果,还是会认为0.8的正面出现概率,较0.5的概率可信。稍后我们会再来看,10次中的8次,与100次中的80次,相对频率同为0.8,但提供的资讯,是否有异?
虽然已有上述三种对概率的解释,也涵盖了不少实际生活中所遇到的情况,数学家当然不会在此止步。他们喜欢抽象化,及一般化。像解方程式,会寻求公式,以表示出某类方程式的解,而非只满足于求出一个个的特例之解。又如当完全了解实数系统后,便会以公理化的方式,定义实数系统。即给一集合,没说是数字的集合,对其中的元素定义二运算,并给出10条遵循的公理(axiom,规则)。你好奇该二运算是否一为加法,一为乘法?而怎么没有减法与除法?名可名,非常名,数学家不认为你提出的是重要的问题。但用心体会后,你终于发现原来二运算,其一等同于加法,其二等同于乘法。也看出此集合中,有一元素根本就是0,而有一元素根本就是1。数学家对你的洞察力,仍不以为意,但同意你可以这样想。
什么叫以公理化的方式,来引进概率?先要有一个集合,称做样本空间,当做某一观测之所有可能结果的集合。可以真的有这一观测,或只是虚拟的。样本空间的某些子集合,是我们有兴趣的,这些就是一个个的事件。所有事件也构成一集合。最后定出一概率函数,即对每一事件,给一介于0,1间的值,为该事件之概率。样本空间、事件的集合,及概率函数,三者便构成概率空间(probability space)。这其中对样本空间没有太大要求,但不可以是空集合。而事件的集合,要满足若干条件。简单讲,就是你有兴趣的事件不能太少。譬如说,不能只对某事件A发生有兴趣,却对A不发生没兴趣。因此事件的集合要够大,至少该有的都得纳入。这有点像婚宴前拟宾客名单。可以请很少人,如只有双方家长。而一旦多列了某人,与他同样亲近的人便也要一併请。所以每多列1人,将不只是增加1人而已,而会随之增加几位。又概率函数,既然以概率之名,当然要符合过去大家对概率的认知,满足一些基本的条件。
在概率空间的架构下,不论采用何种方式解释概率的人,都可各自表述,找到他所以为的概率意义。但因抽象化后,不再局限于铜板、骰子,及扑克牌等,便能讨论较一般的问题,有够多的理论可挖掘。
与数学的其他领域相比,概率论的发展是较晚的。但公理化后,概率论便快速地有了深而远的发展,并成为数学中一重要的领域。这都要归功于二十世纪那位重要的概率学家,俄国的科莫果洛夫(Andrey Nikolaevich Kolmogorov,1903-1987),于他1933年出版,那本不到100页的小书概率论的基础(Foundationsof the Theory of Probability)中所奠定。在此书中,他说:
概率论作为数学学科,可以而且应该从公理开始发展,就如同几何、代数一样(Thetheory of probability as mathematical discipline can and shouldbe developed from axioms in exactly the same way as Geometry and Algebra)。
何处是概率天地
有法国牛顿之称的拉普拉斯(Pierre-Simon,Marquis de Laplace, 1749-1827)曾说:
这门源自考虑赌博中的机运之科学,必将成为人类知识中最重要的一部分,生活中最重要的问题中的大部分,都将只是概率的问题(This science, which originated in the consideration of games ofchance, should have become the most important object of human knowledge. Themost important questions of life are, for the most part, really only problemsof probability)。
概率是针对随机现象。但世上并非每件事都是随机的,我们说过还有必然性。假设投掷一两面皆是人头的铜板,并观察会得到那一面。你晓得这是一必然现象,但仍可说会出现人头的概率为1,而其他情况出现的概率为0。也就是视此为一“退化的”随机现象。
某些物理学家,说不定认为对投掷铜板,由给定投掷的速度、角度、地面的弹性、铜板的形状及重量等条件,可算出铜板落地后,会那一面朝上,因此这不是随机。至于乐透彩的开奖,只要起始条件都能测出,则会开出那一号球,也能算出,因此这也不是随机。但你大约也知道所谓蝴蝶效应(butterfly effect)。量测极可能有误差,而有时一些微小的改变,影响却可能很大。因此我们宁可相信这些都是随机现象。
某些神学家,可能认为一切其实都是按照神的旨意在进行,只是我们不知而已。说不定真是如此。你看过杰逊王子战群妖(Jason and the Argonauts)吗?这是一部基于希腊神话的电影,内容与十二星座中的牡羊座有关,1963出品。我虽是幼时看的,至今仍印象深刻。片中杰逊王子遭遇的各种突如其来的灾难,以及一次又一次英勇的逢凶化吉,不过是天后赫拉(Hera),与天神宙斯(Zeus)在较劲,分别作梗及协助。但若无从了解神的旨意,对于未来,也只好视为随机。
随着科技进步,人们逐渐弄明白很多现象的来龙去脉。例如,我们知道女性一旦怀孕,婴儿性别便已确定。但对一大腹便便的妇女,好事者由于不知,仍可猜测其生男生女之概率。考试前夕,学生们虽认真准备,但还是绞尽脑汁猜题,各有其认为考出概率很大的题目。老师获知后,觉得好笑。课堂中已一再暗示明示,那些题会考,几乎都该能确定了,何需再猜?实则试题早已印妥,而学生不知考题,且未体会老师的暗示及明示,所以仍可以大猜一通。另外,诸如门外有人敲门,你好奇是男是女?老师要你猜拿在背后的水果,是橘子或苹果?同学盖住落地的铜板,要你猜正面或反面朝上?这类明明已确定的事,本身其实并不随机,只是对你而言,却有如惠子在秋水篇所说的“子非鱼”,当然可猜鱼快乐的概率。
但对已命好题目的老师,去判断那一题会考出的概率,就没什么意义了。因对他而言,每一题会考出的概率,只有1或0,不会是其他值。同样地,对看到背后水果的人,水果会是橘子或苹果的概率,将只能说1或0。随机与随意不同。我们说过了,概率中那套逻辑,是有够大的弹性,让人能挥洒,只是仍要合理,否则就是抬槓了。若你明明知道那是苹果,硬要说它是橘子的概率为0.5;或明明已从医生处掌握一切讯息的待产妈妈,还说生下来,是男是女的概率皆为0.5,那就不是在谈概率了。
解释概率
在第2节我们以概率空间的方式引进概率。由于样本空间可以是虚拟的,此时事件也就是虚拟的。但假设真的有一项观测,如投掷一个4面体,4面分别标示点数1,2,3,4,并观测所得点数。则样本空间为1,2,3,4之集合。事件的集合可以取那一个大的,也就是包含样本空间之所有子集所构成的集合。你如果学过排列组合,便知此大的事件集合中,共有16(2的4次方)个元素。至于概率函数,假设点数1,2,3,4出现的概率,分别为0.1、0.2、0.3,及0.4,相加为1。至于任一事件的概率,就看该事件包含1,2,3,4中那几个数,再把对应的概率相加便是。如一事件中恰包含2,4,则该事件的概率为0.2+0.4=0.6。馀此类推。这就建立了一概率空间。对同一样本空间,可定义出很多不同的概率空间。
就算你已接受了概率空间的概念,反正数学家就是常给一些自得其乐的定义,仍可能会好奇,所谓点数1出现的概率0.1,究竟是什么意思?是每投10次,点数1恰出现1次吗?非也!
有个修过概率论的数学系毕业生,好心地对你解释如下:
假设投掷n次,点数1出现a次,则相对频率a/n与0.1之差的绝对值,会大于一给定的正数(不管它多小)之概率,将随着n的趋近至无限大,而趋近至0。
务实的你,很可能不觉得这样的解释很实际。先提出疑问“什么是趋近至无限大?”就是一直投掷,不可停止,日出日落,春去秋来,继续投掷,即使夸父追日成功了,无限大也仍未达到,还得投掷。那位数学系毕业生,一听到你问起无限大,如鱼得水,这是他在数学系四年寒窗,学到的几招独门绝活之一。你不得不停止无限大这个话题,因连夸父追日,你也觉得岂有成功时?如何能接受解释概率,还得涉及无限大?但还一点你不吐不快的是“我就是不了解概率值的意义,怎么却用概率的概念来解释给我听?”
想解释概率值的意义,将会在概率及无限大,一层又一层的打转。这有如想去定义什么叫做点,结果将如同陷在线团中,学步维艰。最后只好说,点是无定义名词。但无论如何,你应可理解,对前述4面体,仅投掷1次,是无法显示点数1出现概率0.1,那个0.1的意思。概率并非只看“少数几次”的结果。概率是在大样本(n很大)下,威力才显现。概率值的意义,既然不能以一套可接受的逻辑来说明。那么退而求其次,可否让人略微了解概率值的意思?或者说(除非是虚拟,只是在求一些概率值),你拿一4面体,且宣称点数1出现的概率为0.1,怎么样才知道你讲的是真的,而非信口开河,或者说记错。
之前那位数学系毕业生的解释,这时便能派上用场。此即大数法则(law of large numbers)之一简单的版本。数学上的意思为,事件出现的相对频率,会“概率收敛”至事件发生的概率。要知随机世界中,仍有些法则要遵循,大数法则是其中很重要的一个。当然我们已指出了,实际上并无法观测事件无限多次。那是否可说,事件出现的相对频率,当观测数够大,须接近事件发生的概率?也非如此。事件只要概率为正,便都可能发生。所以,不论观测数再大,都不能排除很偏颇(如观测1,000,000次,点数1出现的次数为0,或1,000,000次)的事件发生。但是,这时统计学家跳出来了,可以做一检定,检定点数1出现的概率是否真为0.1,这是属于统计学里假设检定(testing hypothesis)的范畴。简单讲,是以在某一假设下,会观测到这样的结果,是否算不寻常?所谓不寻常,是指发生的概率很小,小于某一预设的值。若属于不寻常,则当初的假设就不宜接受。附带一提,当假设一铜板为公正,则投掷100次,出现至少80次正面,较投掷10次,出现至少8次正面,前者是更不寻常的,因它发生的概率,远比后者小。所以,在同样获得八成以上的正面数下,投掷数愈大,将会使我们更相信此铜板非公正,而接受它出现正面的概率,至少是0.8。这说明:
在统计里,样本数愈大,将使我们的推论愈精准。
在随机世界,究竟何者为真,常属未知。我们往往无法“证明”那件事是真实的。不过是一个个的假设,端看你接受那一假设。四面体点数1出现的概率,是否真为0.1,即使投掷再多次,都无法证明其真伪。只能说数据显示“可以接受”,或“无法接受”概率为0.1。这里面有一套机制,以决定接受或不接受。
另外,对一四面体,也可估计点数1出现的概率,有一些不同的估计法,可以得到不同的估计量。在数学中,使用不同的方法,须导致相同的结果。所谓殊途同归。但统计里,除非做些限制,否则常无定于一尊的方法。对不可测的未来,我们常要做估计,统计在这方面,能扮演很好的角色。诸如铜板出现正面的概率,及病人的存活率等,皆能估计。但有时觉得以一个值估计,虽然明确,但估计值很难恰好等于真实值,一翻两瞪眼,常估计不准。信赖区间的概念,因而产生。
信赖区间
我们常对某一未知的量做估计。未知的量可以是某事件发生的概率,某分布的参数(如期望值及变异数等),或某物件之寿命等。这些未知的量,可通称为参数。有时会以一区间来估计参数,并给出此区间会涵盖该参数之概率。这就是所谓区间估计,所得的区间,称为信赖区间。而区间涵盖参数之概率,则称为此区间之信心水准(confidence level)。与概率一样,信心水准是一介于0,1间的值,常事先给定,且以百分比表示。90%、95%、99%等,都是常取的值。
数据(data)是统计学家做决策之主要依据。若缺乏数据,他们往往将一筹莫展。来看一简单且常见的情况。假设欲估计一铜板出现正面之概率p。很自然地,便投掷若干次,譬如说n次,并观测n次的结果。这个过程便称为取样。在本情况中,各次投掷的结果并不重要。总共得的正面数,以a表之。知道a,就已掌握全部资讯[a称为充分统计量(sufficient statistic)]。给定信心水准,并利用n及a,可得一信赖区间,但作法并不唯一。亦即对于p,有不同的信赖区间公式。但课纲的写法,好像信赖区间的公式唯一。此处由于其中涉及二项分布,计算复杂些,如果n够大(n太小则不行),我们常可藉助常态分布来近似。这要用到概率论里另一重要的法则—中央极限定理(Central limit theorem)。必须一提,只有以常态分布来近似时,才需用到中央极限定理,并非求信赖区间皆要用到此定理。
对估计铜板出现正面之概率p,取样前,信赖区间为一随机区间,若信心水准设定为95%,则有(或精准地说“约有”,如果该信赖区间只是近似的)0.95的概率,信赖区间会包含p。取样后,得到一固定区间。则p会属于该区间的概率,将不是1便是0,而不再是p了。为何如此?很多人对此常感困惑。
我们先以下例来说明。假设某百货公司周年庆,顾客购物达一定金额,便能自1至10号中抽1彩球。若抽中5号,今天在该公司的花费,可获30%抵用券。在抽球之前,你知道有0.1的概率能获抵用券,机会不算小。一旦抽出,一看是3号,获抵用券的概率当然便是0了。
这类例子很多。打击手挥棒前,可以说打出安打之概率为0.341,打完不是安打就非安打,0.341已派不上用场了。再给一例。假设某银行发行的乐透彩,每期自1至42号中,开出6码为头奖号码。你签了一注6码,开奖前,你知道很容易“至少中1码”,因概率约为0.629(见附注1)。等开奖后,你的彩券会至少中1码之概率,将是1(若至少中1码),或是0(若1码皆未中)。