邱皓政(2020/09) 貝氏統計:原理與應用。雙葉書廊。回首頁

自序

學習貝氏統計最重要的兩件事,第一是要有一顆能夠聰明思考的頭腦,第二是要有一臺跑得很快的電腦,當你清楚知道自己要的是什麼之後,勤快的電腦就能替你創造出答案。聰明如你馬上就會反駁我,絕大多數的統計分析不都是一樣嗎,不是都先要把變數定義清楚,統計模型設定好,有了觀察資料之後,寫好語法,按下執行,就可以得到報表寫報告。除了電腦不需要很好之外,樣本數不要多得離譜,一般的統計軟體都能跑,貝氏統計需要的兩個腦,哪裡不同?

先講電腦吧。貝氏統計的核心是貝氏估計,而貝氏估計靠得是馬可夫鏈(MC)蒙地卡羅(MC)演算,少則幾萬步、多則上百萬,而且MCMC走的步數叫做隨「機」漫步,如果「機」率分配不尋常,參數數量又不少,如果沒有多幾顆CPU,多幾排RAM,電腦再勤快也跑不了,一般統計軟體根本不能這麼操。 再說聰明腦。二百五十年前Thomas Bayes發現機率可以翻來覆去(稱為逆機率),過世後論文手稿才被發現,好友替他投稿刊登後不得了,引發數百年頻率學派與貝氏學派之間的紛紛擾擾,幾乎所有的統計大師(例如Ronald FisherKarl PearsonJerzy NeymanCharles Spearman)都曾潦下去吵……,注意喔!我所說的聰明腦並不是要用來「鬥嘴鼓」,而是要能像這兩派人馬那麼清楚明白自己在吵什麼。

兩方陣營立場都堅定,用詞很深奧,一邊服膺中央極限定理,堅信大數法則,認為機率要從手中的資料來計算才「客觀」,而且觀察愈多愈客觀,機率愈能逼近真相,最後得到的「最大概似值」就是「唯一」的最佳答案;另一邊就數落這種客觀就是名符其實的「主觀」,是所有可能當中的特例,因為所有的機率都有條件,所有的觀察都有脈絡,先驗存在的脈絡決定參數散佈的空間,參數是機率分配而「非唯一」,機率運算要先定義脈絡,經過貝氏運算得到後驗分配,才是參數的真相。 由於整個二十世紀中,實證主義是主流,頻率統計口中的「最大概似估計」明確易找容易懂,常佔上風,貝氏學派堅信「參數是隨機變數」的陳義過高,不易求證無從觀察難想像,因此飽受攻擊。但有趣的是,隨著研究者的野心愈來愈大,模型愈來愈複雜,最大概似值愈來愈難估計,頻率學派開始動搖,相反的,當電腦愈來愈進步,演算法愈來愈成熟,貝氏信念下的參數空間在MCMC一步一腳印的軌跡當中完完整整的「被看到」,先驗脈絡的效應可以真真實實的「被檢驗」,於是士氣大振,宣揚貝氏革命已經展開……

前面這些故事的細節與專有名詞在本書當中都會逐一說明,如果讀不明白不用心急,更不用懷疑自己沒有那顆聰明腦,只要耐著性子,按部就班,詳讀原理,反覆演練,貝氏統計自然就能掌握,至於電腦好不好倒是值得煩惱。更重要的是,從本書的演示範例與實際研究所得到的結果,都可發現其實兩派觀點在多數情況下的結果相近,結論相同,其實不用玩零和遊戲鬧革命。哪一種估計方法比較簡單有效、哪一種分析策略能夠更接近事實,這種討論與選擇才是務實之道。但問題是,除了要熟悉貝氏原理與技術(第16章),還要熟悉迴歸分析、變異數分析、多層次模式、因素分析、結構方程模式、成長模式、潛在結構分析與混合模式這些統計模型,才能套用貝氏方法、展現MCMC的功力,這些統計模式的學習才是最沉重的負擔,從第7章開始將逐一介紹,踏實走完每一章,配合演練,就會貝氏。

這本貝氏統計算是相當進階的統計專書,要能面對需要勇氣,能夠堅持更需毅力,但學會之後必有大用,成就指日可待。我自己的學位養成過程從未學習貝氏,擔任教職後也少有接觸,書中超過二十萬字寫作經歷千百小時,閱讀大量文獻專書,執行無數模擬分析,反覆確認分析結果,最後終於完稿,著實辛苦,但是值得,除了可以填補華文世界所欠缺的一本貝氏專書,其實還了卻一個心願。

多年前,在一個演講場合結束後,一位學生求助於我,劈頭就先問了一句,「老師,您會貝氏嗎?」因為他的模型遇到問題,估不出來,聽說可以用貝氏估計來解決,問我會不會。當時的我尚未涉獵貝氏方法,技術也不成熟,軟體更不好用,於是提醒他更換估計法未必能夠解決問題,先要正本清源再說。學生得不到想要的答案,道了謝就失望離開。從那一刻起,那一句「老師,您會貝氏嗎?」,不斷在我耳邊纏繞,魂牽夢縈,直到本書完稿的現在,終於得到一絲解脫。心想,如果可以找回那位學生,我的答案將會完全不同。

關於貝氏,如果只是問「會」與「不會」,那只是學習與經驗問題,如果有足夠時間、願意嘗試、決心搞懂,自然就會。真正的問題是「要」或「不要」,就像莎士比亞筆下的英勇王子,一出場就拋出一句“To be, or not to be, that is the question!”,究竟是要忍辱負重,繼續面對,還是迎向挑戰,掀起革命,這攸關生存與毀滅呀(莎士比亞戲劇的原意)。在統計領域,會不會方法雖無關生死,但在資訊技術高度發展、各類工具齊備的今天,“To Bayes, or not to Bayes, that is the question as well!”,要不要面對貝氏,確實是個問題。本書好幾個段落,都提到莎士比亞的名言,或者引述學術領袖的話:貝氏革命(Bayesian revolution)時候到了(The time has come),我其實不用多說,也沒有預藏什麼信念,更沒有暗示什麼選擇,看完本書之後,您自然會有心得。

如同往例,關於這本書的完成,還是得感謝一些身邊的友人與學生,首先是長期協助個人專書出版的林碧芳教授,沒有經過她讀過每一個字,這本書無法定稿;總是給予真心建議的曾明基教授,此書也不例外,很多段落還是有他的影子;還有一位自投羅網的研究生黃聖育與研究助理胡素菁u,把本書的校對當作暑假作業,也有功勞;以及在密西根坐困愁城最後補上一槍的洪嘉陽教授,即時更正了一些基本觀念。另外,遠在美國的袁克海教授與樓下研究室的何宗武教授,不僅是學術友人,更慨然贈序,每一個字都是鼓勵。以及出版社的羅曼瑄小姐的長期支持與姚淑娟小姐的細心協助,他們都是功臣。至於在我臉書網誌上按讚留言的朋友訪客,您們也是力量。

為了寫作,我特意申請休假研究,前往荷蘭Utrecht University訪問,並打算轉往美國University of Notre Dame,因為這兩校都有全球最頂尖的心理計量學者,都關心貝氏統計的發展,做了很多好研究,從本書的參考文獻中,可以找到許多他們的文章與名字,後來因為新冠肺炎疫情而中斷旅程,少了寶貴的意見交換,內心著實感到遺憾,但躲避疫情的困居,反而讓我更加專注得以順利完書,倒是意外收穫。有機會,真心想聽聽讀者的分享或建議,在這條孤寂的道路上,同行者真的不多,每一個提問,都有故事,每一句分享,都很珍貴,我會放在心上。

邱皓政謹誌於

臺師大管理學院

2020/09