- 庫存 = 1
- 放入購物車
- 放入下次購買清單
因果革命:人工智慧的大未來(硬殼精裝)
- 作者:朱迪亞・珀爾(Judea Pearl)、達納‧麥肯錫(Dana Mackenzie)
- 出版社:行路
- 出版日期:2019-06-26
- 定價:680元
- 優惠價:79折 537元
- 優惠截止日:2024年12月25日止
-
書虫VIP價:537元,贈紅利26點
活動贈點另計
可免費兌換好書 - 書虫VIP紅利價:510元
- (更多VIP好康)
-
購買電子書,由此去!
分類排行
-
創意思考金字塔:從理解問題到提出解方,五段式思考法為個人或組織找到高價值創意
-
投資金律(新版):建立必勝投資組合的四大關鍵和十八堂必修課
-
窮思維、富邏輯:人生實用商學院之致富之前先自主
-
大會計師教你從財報看懂投資本質:首度寫給投資人的理財專書
-
系統思考實作篇:一眼看清規律背後的結構和邏輯,解決現實世界中的複雜問題
-
世界上最神奇的24堂課:啟發比爾.蓋茲創業原力,矽谷祕傳70年禁書,潛能激發必讀經典,「祕密」書中引用多達16次(暢銷百年經典 全新譯本)
-
10秒選出10倍股:美股教授林昭賢教你用顏值投資法,不靠基本面和技術面分析,一眼找出上漲10倍的美國飆股!
-
頂尖財務顧問的48堂財商素養課:收支保險投資,人生4階段富足全攻略
-
機率思考:職業賭徒與華爾街巨鱷的高勝算思維法,面對機率、風險和不確定性的34堂防彈思考課【暢銷慶功版】
-
高盛首席分析師教你剖析超級週期:掌握進場的訊號,啟動長期獲利的投資布局
內容簡介
大數據為什麼不夠聰明?
比機率更強大的思考工具又是什麼?
電腦科學界諾貝爾獎「圖靈獎」得主暨貝氏網路研發先驅Judea Pearl總結畢生研究成果,聯手獲獎的統計學家Dana Mackenzie,提出改變人工智慧及科學界的重要工具!
▎大數據看似厲害,其實有很大的侷限
近幾年大數據當紅,加上它在許多領域的成功運用,其地位與能力備受追捧。與大數據密切相關的統計學,是法蘭西斯・高爾頓與卡爾・皮爾森解答對於遺傳的疑問未果,而開發出來的學科,這門學科創立後興盛數十載,其名言「相關不是因果」影響科學界經常止步於探究「關聯」而非「因果」,並且長期受資料本位的歷史所影響,認為資料無所不能,但是朱迪亞・珀爾希望藉此書告訴讀者,資料本身一點也不智慧。
▎要發展出「強AI」,機率思考仍遠遠不夠
一九八○年代初,朱迪亞・珀爾認為不確定性是AI所欠缺的最重要的能力,於是運用機率開發出強大的推理工具——貝氏網路,因而獲得有電腦科學界諾貝爾獎之稱的「圖靈獎」。貝氏網路是首先讓電腦以灰階方式思考的工具,至今仍極受人工智慧界倚重,然而到了一九八○年代末,珀爾認為貝氏網路仍沒有填補人工智慧和人類智慧的差距,於是他轉而研究如何教AI學會「因果推論」,本書便是整理了歷代科學家推展因果革命的努力與成果。
▎從「求得相關性」的舊階段,邁入「釐清因果關係」的新時代
本書最初幾章是有趣的科學史,探討科學家追求因果解釋的過程如何受挫,以致發展出統計學,並讓統計學方法長期引領學界研究。接著書中有大約一半篇幅,作者以實例示範因果語言(圖示模型)如何解決傳統統計學認為無解的難題,逐一揭示「因果階梯」三大分層的能力(越高的層級,認知挑戰越高,越難理出因果關係),並讓讀者了解因果革命路上諸人的努力與進展,以及這些進展的重要性。本書末尾回頭說明因果革命相對於人工智慧各重要發展面向(比如大數據、深度學習、資料探勘、機器學習等),有何勝出之處、能對它們起什麼正面影響,以及最重要的——「因果革命」將會如何改變人工智慧。
▎「因果革命」不只影響人工智慧,還影響各研究領域
現今機器學習運作時仰賴的是「相關性」,而不是「因果」,如果能成功將因果思考導入電腦,將使電腦變成真正的科學家,使它們成為我們的得力伙伴,提供我們更合理的洞見。由於因果思考可以呈現罪責,電腦能因而具備道德感——「具備道德感的強AI」是因果革命在人工智慧領域的終極追求,作者形容這「是人工智慧給人類的第一個、也是最好的禮物」。
因果性研究還釐清了我們多年來對許多知識本質的不解,改變我們對於眾多問題的認識,這些問題牽涉的層面無所不包,舉凡涉及解讀資料以及根據解釋而採取的作法(像是致病因素、醫療資源分配、公共政策擬定等),都能受益。集結眾多領域學人之力才有如今成果的因果革命,亦將回頭影響整個科學界,珀爾形容它「將使科學的體質更加健全,是人工智慧給人類的第二個禮物」。在美國,因果科學已經開始被大學列入課程……
▎我們強烈建議這些人士閱讀這本書:
(1)資料科學家與大數據研究者,以及對大數據深感興趣的人
(2)統計學家、數學家,電腦科學相關從業人員與學習者
(3)對經濟趨勢與科研發展有興趣的一般大眾
(4)希望培養科學素養,了解最新科學方法的學子
各界盛讚
《快思慢想》作者暨諾貝爾獎得主康納曼、《大演算》作者多明哥斯、谷歌網路推廣長文特‧瑟夫、微軟研究實驗室主任艾瑞克‧霍爾維茲
重磅推薦!
●谷歌網路推廣長文特‧瑟夫:
珀爾近三十年來的學術成就,為人工智慧發展提供堅實的理論基礎……同時把「思考機器」提升到另一個境界。
●《大演算》作者佩德羅‧多明哥斯:
因果如果不是相關,那又是什麼?拜朱迪亞‧珀爾的劃時代研究之賜,現在我們已能精確回答這個問題。想理解世界如何運行,這本引人入勝且讀來愉快的書是理想的起點。
●微軟研究實驗室科技研究員及主任艾瑞克‧霍爾維茲:
朱迪亞‧珀爾是人工智慧領域、甚至整個電腦科學界革命的核心人物。
●諾貝爾經濟學獎得主及《快思慢想》作者丹尼爾‧康納曼 :
各位是否曾疑惑「相關」和「因果」究竟是什麼關係?這本精彩著作深入淺出地說明了答案。
●《紐約時報》喬納山‧尼伊:解說十分詳盡……本書不僅詳盡介紹概念的發展史,也提供概念工具,讓讀者理解大數據的優勢與不足之處。
●《自然》雜誌:「相關不是因果」這句科學俗語已在社會上造成影響……朱迪亞‧珀爾提出嶄新的數學解決方案……現在已在生物、醫學、社會科學和人工智慧領域開花結果。
●《猶太日報》:深入淺出……珀爾是有遠見的因果革命領袖,這本書則是他最大的成就。
讀者好評
●對電腦科學、統計學或人工智慧當今發展有興趣的人都應該讀讀。這本書如同康納曼的《快思慢想》,是作者畢生科學研究的總結,不僅對同領域科學家而言價值非凡,也是全人類的瑰寶。(讀者阿蘭‧約瑟夫‧坎恩)
●朱迪亞‧珀爾的貝氏網路和因果圖以十分優雅的方式結合統計學、流行病學、決策和電腦科學等領域。他的研究成果賦予並擴大了大數據的潛力。這本書是市面上第一本為一般大眾介紹這主題的書籍,其影響將無以估計。(讀者湯瑪斯 J. 阿拉岡,流行病學家)
●知名商學研究所都應該用這本書當成教材。我送了一本給我念大學時的院長。為了現在和未來的學生著想,我希望它能成為一門課。(讀者喬治‧莫札奇斯)
序跋
▎自序
這本書的目標有三個:一是以非數學語言讓讀者理解因果革命的詳細內涵,以及它將如何影響我們的生活和未來。二是為讀者介紹科學家遭遇及挑戰關鍵因果問題時,英勇解決的歷程。最後,則是把因果革命帶回人工智慧的最初本源,介紹如何讓機器人學習以我們的母語(即因果語言)溝通。
▎前言:思想勝過資料
法蘭西斯・高爾頓與卡爾・皮爾森運用跨世代資料解答他們對於遺傳的疑問,可惜沒有成功,於是他們開發出「統計」這門爾後興盛數十載的學科。從事研究的人都聽過「相關不是因果」這句統計學名言,該觀念影響學界長期探究「關聯」而不問「因果」。在資料本位的歷史影響下,今日我們甚至認為大數據可解答所有問題,但是朱迪亞・珀爾希望藉此書告訴讀者,資料本身一點也不智慧。1980年代末,研究人工智慧的珀爾發現,「機器無法理解因果關係」可能是它們無法具備人類智慧的關鍵原因,於是他轉而投身因果科學陣營,多年後他藉由這本書,總結了各路科學家推動因果革命的成果。
▎第一章 因果階梯
因果的三個層級/迷你圖靈測驗/機率與因果
珀爾研究機器學習時了解到,因果學習者至少必須掌握三個層級的認知能力,分別是:(一)觀看與觀察,以探知環境中的規律;(二)實行,亦即預測刻意改變環境的效果,並選擇適當改變以獲得想要的結果;以及(三)想像——因果階梯的三個層級「觀察」、「介入」和「反事實」便是由此而來,數學能證明這三個層級有根本上的不同,每個層級都具備前一層級缺少的能力。本章將介紹以因果圖進行推理的基礎概念、主要的建模工具,讓讀者慢慢見識因果推論模型詮釋資料、解答疑問的強大能力。
▎第二章 從海盜到天竺鼠:因果推論的創生
法蘭西斯‧高爾頓捨「因果」而擁抱「相關」/卡爾‧皮爾森把「因果」掃出統計學/萊特、天竺鼠和路徑圖/E PUR SI MUOVE(但地球依然在轉動)/貝氏連結將主觀機率帶進統計學界
十九世紀末,法蘭西斯・高爾頓想將《物種原始》的理論架構數學化,他花了八年嘗試解答族群遺傳特質維持恆定的原因,但是始終無解,最後放棄研究,轉而注意統計「相關」。高爾頓的門徒卡爾・皮爾森後來提出「相關係數」,直到現在,所有統計學家想知道資料組中兩個變項的關聯程度時,總是最先計算這個數字。第二章講述統計學如何忽視因果性,並且對各種資料導向的科學造成深遠影響。此外還將介紹對本書而言十分重要的遺傳學家西瓦爾‧萊特的故事;萊特於1920年代首先繪製因果圖,多年來一直是少數認真看待因果性的科學家。
▎第三章從證據到原因:當貝斯遇見福爾摩斯
電腦偵探波拿巴(Bonaparte)/貝斯牧師與逆機率問題/從貝氏法則到貝氏網路/貝氏網路:原因透露了哪些關於資料的線索?/我的行李在哪裡?從亞琛到尚吉巴島/真實世界中的貝氏網路/從貝氏網路到因果圖
1980年代初,珀爾認為不確定性是AI所欠缺的最重要的能力,於是運用機率,開發出處理不確定性推理的強大工具——貝氏網路,這是首先讓電腦以「灰階」方式思考的工具,至今仍被視為人工智慧頂尖典範。然而到了1980年代末,珀爾開始覺得自己錯了,他認為貝氏網路仍沒有填補人工智慧和人類智慧的差距。在這一章,他談了自己從貝氏網路忠實信徒變節,轉入因果性陣營的心路歷程。儘管如此,貝氏網路依然是今日人工智慧界極為倚重的工具,而且具備因果圖的許多數學基礎,因此這章以因果性簡略介紹貝氏法則和貝氏推理方法,並為讀者舉出幾個在實際生活中運用貝氏網路的範例。
▎第四章 干擾與去干擾:或說剷除潛在變項
干擾導致強烈恐懼/大自然的巧妙質問:隨機對照試驗為何有效用?/干擾的新典範/do運算子和後門準則
隨機對照試驗(RCT)是統計學對因果推論的重大貢獻,它的主要目標,是把要探討的變項與可能影響它們的其他變項分開。如何去除這些潛在變項造成的失真或「干擾」,是已經存在一世紀的難題,但科學家直到最近才體認到,解決這問題需要的不是統計學方法,而是因果方法。這章要從因果圖的觀點說明,RCT為何能協助估計兩變項之間的因果效應,而且不受干擾偏差影響,從中我們會了解RCT其實源自更基本的原理,其他方法未必都要奉它為圭臬。這一章還將說明因果圖如何讓我們把焦點從「干擾因子」轉移到「去干擾因子」,並且帶領讀者以出奇簡單的方式解決一般干擾問題。
▎第五章 煙霧瀰漫的爭議:除去迷霧
菸草:人為流行病/衛生總署委員會和希爾準則/吸菸對新生兒的影響/激烈爭議:科學與文化
十八世紀詹姆斯.林德發現柑橘類水果能預防壞血病,十九世紀約翰.史諾發現遭排泄物汙染的水會導致霍亂,這些偵察工作很幸運的一點是:原因與結果之間是一對一關係。二十世紀時「吸菸是否會致癌」爭議挑戰了單一因果關係概念,而且由於無法隨機指定某些人冒著健康風險吸菸數十年以進行對照,統計學家不只對答案難有共識,連如何理解問題都有不同看法。後來美國衛生總署委員會採用一連串非正式指導方針「希爾準則」,終於得出「吸菸會導致癌症」這結論,但這花了近十五年時間。這爭議讓許多人看清因果性的重要——如果科學家有適合的語言或方法來解答因果問題,得出結論將不再曠日廢時。
▎第六章破解悖論!
令人費解的蒙提霍爾問題/更多衝突偏差:柏克森悖論/辛普森悖論/以圖畫說明辛普森悖論
這章要讓讀者輕鬆一點,做一些有趣的動腦遊戲,談談蒙提霍爾悖論、辛普森悖論與柏克森悖論等知名的古典矛盾問題。其實這些悖論問題有嚴肅的一面——它們幾乎都與因果直覺抵觸,因此能讓我們深入分析這類直覺。悖論和視錯覺一樣,能夠揭露大腦的運作方式、大腦愛走的捷徑,以及大腦覺得矛盾的事物。因果悖論凸顯出與機率和統計邏輯衝突的直覺式因果推理型態,看看統計學家對它們有多麼頭痛,就能知道不用因果性眼鏡看世界往往容易出現誤判。這些問題提醒著科學家,人類直覺是以因果為基礎,而不是統計和邏輯。一起來看看這些經典悖論問題的新解吧!
▎第七章 超越調整:征服介入山
最簡單的路線:後門調整公式/前門準則/Do計算法——精神高於物質/科學的織錦,或是do管弦樂團的隱形樂手/史諾博士的詭異案例/好膽固醇和壞膽固醇
第七章到第九章將帶領讀者一步步登上因果階梯。本章要登上階梯的第二層——介入層,其重點是預測以往未曾嘗試的行動和策略可能產生什麼效果。除了說明可產出「是或否」答案的因果推論發動機的內在結構,還要教讀者尋找因果圖中的特定型態,像是後門調整、前門調整及工具變項等,它們在因果推論中扮演極吃重的角色。作者將示範這些工具如何解答以往困住科學家的難題,例如以「前門準則」釐清因果圖尚未誕生時的「吸菸致癌爭議」,用約翰.史諾的霍亂成因調查示範因果圖如何讓工具變項發揮作用。作者也將介紹他的學生在因果革命中扮演的角色。
▎第八章 反事實:發掘可能成真的世界
從修昔底德和亞伯拉罕,到休謨和路易斯/潛在結果、結構方程式,以及反事實的演算法化/了解自己的假設是好習慣/反事實與定律/必要原因、充分原因和氣候變遷/反事實的世界
人類是在五、六百萬年間由猿猴類演化而來,但在近五萬年間發生了一些獨特狀況,從此能更快速地改變自身能力與環境,例如發明許多神奇物品。為什麼?人類突然獲得其他動物沒有的什麼運算能力?對此有許多人提出理論,但其中只有一種與因果關係有關——歷史學家哈拉瑞在《人類大歷史》中推測,人類祖先能設想「不存在的事物」(反事實),讓人得以溝通得更順暢,是其中最重要的關鍵。本章要帶各位登上因果階梯的頂層,探討反事實,照例會有許多因果圖示範釐清常見爭議的實情(例如學經歷對薪水的影響,以及量化氣候變遷的效果等),體會將「反事實」納入因果查詢時,解答事情的面向如何更加豐富多變。
▎第九章 中介:找尋機制
壞血病:錯誤的中介變項/自然與養育:芭芭拉‧布克斯的悲劇人生/尋找語言(柏克萊錄取率悖論)/黛西、小貓和間接效應/線性理想世界裡的中介/接納「應該會」/中介案例分析——吸菸基因:中介和交互作用;止血帶:隱形的謬誤
「反事實」目前在科學界中最風行的應用是中介分析,中介(或中介變項)是把處理效應傳遞給結果的變項,中介分析的目的是釐清直接效應和間接效應。這類問題不僅在科學上相當重要,也有實際的影響,書中舉了駭人的一例:詹姆斯.林德船長的壞血病研究是史上極早的對照實驗,其結果在1747年發表。但一個世紀之後,英國遠征隊開始探察極地時,這種完全可以預防的疾病出乎意料地捲土重來,原因就在於當時尚未發現真正的中介變項(維生素C),使得「柑橘類水果可預防壞血病」這理論被棄之如敝屣。本章介紹科學家如何找出表達「中介」的方法,以補傳統統計學的不足,另外也有數例中介案例分析。
▎第十章 大數據、人工智慧與大問題
因果模型與大數據/強AI和自由意志
怎樣打造智慧與人類相當且能分辨善惡的機器?——珀爾相信,因果推理是讓機器能以人類語言與我們溝通,談論政治、實驗、解釋、理論、遺憾、責任、自由意志與義務等話題,乃至自己做出道德決策的關鍵,因此發展因果語言與工具之重要性不可言喻。在研發過程中他廣泛接觸各領域人士,一起點燃因果革命的火花,火花從一個學科擴散到另一學科,催生了新典範,他認為這個轉變將使科學的體質更加健全,這是「人工智慧給人類的第二個禮物」。而因果革命在AI界的終極產物——具道德感的強AI,不只會成為我們的好伙伴,還能成為我們師法的對象,教導我們更明晰、因果上更合理的正義感,這則是人工智慧給人類的第一個、也是最好的禮物。
▎致謝
內文試閱
●前言:思想勝過資料
每種興盛的科學之所以興盛,關鍵都在於有一套成功的符號。——奧古斯塔斯‧德摩根(Augustus de Morgan),英國數學家及邏輯學家
有一種科學改變了我們分辨事實與幻想的方式,但一般大眾對它依然認識極少——這本書講的,就是這門學問的故事。這種新科學已經影響生活的許多重要層面,未來可能影響得更廣泛,從開發新藥到控管經濟政策,從教育與機器人到槍枝管制和全球暖化等。值得注意的是,儘管這些問題五花八門而且顯然無從比較,但這種新科學都能把它們納入統一的框架來處理。在二十年前,根本還沒有這樣的框架。
這種新科學沒有很炫的名稱,我跟許多科學家稱它為因果推論(causal inference)。這種科學也不特別高科技。因果推論努力模仿的理想科技,就在我們的思想中。幾萬年前,人類開始了解,某些事物源自另外一些事物,研究後者就可改變前者。其他物種不了解這一點,至少沒有到達人類那種程度。我們從這個發現形成有組織的社會,再發展成城鎮和城市,最後產生現在的科學和科技文明。一切都源自我們問了個再簡單不過的問題:為什麼?
因果推論正是因為我們認真看待這個問題而產生。它斷定人類的大腦是有史以來最先進的因果處理工具。我們的大腦中儲存大量的因果知識,這些知識在資料輔助下,就能回答現今最迫切的各種問題。更重要的是,我們一旦真正了解因果思考的邏輯,就能在新型電腦中模擬其運作,創造出人工科學家。這個聰明的機器人能發現至今未知的現象、發掘未解的科學困境的解釋、設計新實驗,並且不斷由環境獲取更多因果知識。
但在我們大膽猜測這些未來發展之前,必須先了解因果推論目前已有的成就。我們將探討它如何改變絕大多數資料相關領域科學家的思考方式,以及它將如何改變我們的生活。
這種新科學可以處理這些看似簡潔明瞭的問題:
‧某種療法預防疾病的效果如何?
‧是新稅法使得銷售增加?還是那是打廣告的結果?
‧醫療成本中,有哪些可歸因於肥胖?
‧聘僱紀錄是否能證明雇主確實採取性別歧視政策?
‧我打算辭職,我應該這麼做嗎?
這些問題都和因果關係有關,特徵是「預防」、「使得」、「歸因於」、「政策」,以及「應該」等這些詞。這些詞在日常交談中經常使用,社會也經常得回答這些問題。但直到非常近期,科學都沒有提供任何方法來清楚表達這些問題,更不用說解答它們了。
因果推論目前對人類最大的貢獻,就是讓這個科學疏忽成為過去。這種新科學衍生出一種簡單的數學語言,來表達我們已知和想知道的因果關係。以數學方式傳達這項資訊的能力,帶來許多合乎規則的強大方法,把我們的知識和資料結合起來,解答如同上面這五個疑問那樣的因果問題。
這二十五年來,我有幸身處這波科學發展中。我看著這門科學在學生和實驗室中逐漸成形,聽著它的重大突破在沉悶的科學研討會中迴響,完全不受一般大眾注意。現在我們進入強大人工智慧(強AI)時代,許多人大力吹捧大數據和深度學習擁有無盡的可能性。我在最好的時候發現這門科學,很高興能向讀者介紹它正在進行的各種大膽嘗試、它對資料科學的影響,以及二十一世紀它將如何影響我們生活的許多層面。
讀者們看到我說這些進展是「新科學」時,或許會覺得有點疑惑,甚至可能會問:「我們為什麼不早這麼做呢?」古羅馬詩人維吉爾(Virgil)(早在西元前29年便)提到「能了解事物成因的人很幸運」,現代統計學奠基者法蘭西斯‧高爾頓和卡爾‧皮爾森則發現人口資料有助於解決科學問題,當時他們怎麼沒發展出這門科學呢?這本書的歷史回顧部分會提到,他們都有漫長的失敗經驗。但在我看來,最主要的阻礙是:我們用來描述因果問題的詞彙,與傳播科學理論時使用的傳統詞彙,基本上有所差異。
要理解這樣的差異有多深遠,可以想像一下科學家試圖表達某些顯而易見的因果關係時,有多麼困難,例如氣壓計讀數為B時,代表大氣壓力為P。我們可以輕易寫出像B = kP這樣的方程式,其中k代表某個比例常數。接下來可以依據代數法則,把這個方程式隨意改寫成各種形式,例如P = B/k、k = B/P,或是B – kP = 0。這些方程式的意義全都相同,只要知道這三個量中的二個,就可求出第三個量。k、B和P這幾個字母在數學上的地位,都不比其他字母高。那麼我們又該怎麼表達我們相信是壓力造成氣壓計讀數改變,而不是氣壓計造成壓力改變?如果我們連這麼簡單的因果關係都無法表達,又怎能表達其他連數學公式都沒有的因果概念?(例如太陽升起不是因為公雞報曉的關係。)
跟我同校的其他教授也辦不到,而他們從來不覺得困擾。我打賭各位讀者也從來沒做到。現在我們已經知道原因:他們從來沒有見過因果的數學語言,也不清楚它的效用。這點其實凸顯出科學界多年來都沒有發展出這樣的語言。每個人都知道撥動開關可以開燈或關燈、酷熱的夏日午後會使當地冰淇淋店生意滾滾來。那麼科學家為什麼沒有把這麼顯而易見的事實寫成公式,就像光學、力學或幾何學的基本定律一樣?他們為什麼讓這些事實依然是單純的直覺,不開發數學工具,讓它像其他科學領域一樣發展茁壯?
部分原因是:開發科學工具是為了因應科學需求。更精確地說是我們已經很擅長處理開關、冰淇淋和氣壓計等問題,不大需要特殊數學工具來處理這類問題。但隨著科學好奇心逐漸增長,我們也開始在複雜的法律、商業、醫學和政策制訂場合提出因果問題,我們發現手上沒有成熟科學應該提供的工具和原理。
類似的後知後覺在科學界不算少見。舉例來說,人類一向相信自己很能處理日常生活中的不確定性,例如過馬路和打架等。直到四百年前賭客發明複雜的機率賽局,狀況才開始改變。這類機率賽局往往精心設計,誘使我們做出不正確的選擇,布雷斯‧巴斯卡(Blaise Pascal)、皮耶爾‧迪‧費馬(Pierre de Fermat)和克里斯提安‧惠更斯(Christiaan Huygens)等數學家這才發現,有必要開發我們現在所知的機率理論。同樣地,保險公司需要精確的終身年金估計值時,艾德蒙‧哈雷(Edmond Halley)和亞伯拉罕‧棣美弗(Abraham de Moivre)才開始依據死亡率表計算預期壽命。此外,天文學家需要精確預測天體運動,雅各‧白努利(Jacob Bernoulli)、皮耶-賽門‧拉普拉斯(Pierre-Simon Laplace)和卡爾‧弗里德瑞希‧高斯(Carl Friedrich Gauss)才開發出誤差理論,協助我們提取雜訊中的訊號。這些方法都是今日統計學的始祖。
諷刺的是,因果理論需求開始浮現之際,統計學也在此刻誕生。事實上,正是高爾頓和皮爾森對遺傳產生疑問,巧妙地運用跨世代資料來解答這些問題,才孕育出現代統計學。可惜的是,他們的努力沒有成功,而且他們沒有問為什麼,而是宣告這些問題無法回答,同時開發與因果性無關的興盛學科,稱為統計學。
這是科學史上的關鍵時刻。因果問題差一點就能擁有自己的語言,但還是功敗垂成。後來幾年,這些問題被宣告為不科學,從此轉入地下。儘管遺傳學家西瓦爾‧萊特(Sewall Wright)勇敢地投注許多心力,因果詞彙依然被禁絕半世紀以上。禁止談論就是禁止思想和扼殺原理、方法和工具。
各位讀者即使不是科學家,相信也都見過這次禁絕。在基礎統計學中,每個學生都聽過「相關不是因果」(Correlation is not causation.)。這麼說是有理由的!雞啼跟日出很有關聯,但不是日出的原因。
可惜的是,統計學盲目崇拜這個觀察到的常識。統計學告訴我們相關不等於因果,卻沒有說因果到底是什麼。在統計學教科書的索引裡你找不到「原因」。學生不准講X是Y的原因,只能說X和Y「相關」或「有關聯」。
由於這樣的禁忌,統計學認為不需要數學工具來處理因果問題,它在意的只有如何總結資料,而不是如何詮釋資料。唯一的例外是1920年代遺傳學家西瓦爾‧萊特發明的路徑分析(path analysis),這也是本書許多方法的鼻祖。然而路徑分析完全不受統計學和相關領域青睞,因此停滯在萌芽階段數十年之久。1980年代之前,邁向因果推論的第一步始終沒有跨出去。統計學的其他領域,包括想求助於因果推論的其他學科,也還處於禁忌時代,誤以為所有科學問題的答案都蘊含在資料中,可以透過巧妙的資料探勘技巧發掘出來。
資料本位的歷史至今仍然揮之不去。我們這時代認為,大數據是所有問題的解答。各大學爭先恐後地開設「資料科學」課程,企業為了搶搭「資料經濟」列車也高薪徵求「資料科學」相關人員。但我希望這本書能告訴大家,資料本身一點也不智慧。資料可以告訴我們,服用某種藥物的人恢復得比沒有服用的人快,但無法告訴我們為什麼。前者之所以服用這種藥物,或許只是負擔得起,即使沒有服用也會痊癒得一樣快。
在科學和商業領域,我們經常發現,單單只有資料是不夠的。大數據愛好者雖然明瞭這些限制,但仍然追求資料本位智慧,就像現在還沒有脫離禁絕時期一樣。
前面曾經提到,近三十年來很多事物改變極大。在許多精心打造的因果模型輔助下,近年來科學家已能處理以往認為無法解決、甚至超越科學範疇的難題。舉例來說,僅僅一百年前,「抽菸是否危害健康」這問題仍被視為不科學。就算只提到「原因」或「結果」,可能就會在知名統計學期刊上引發激烈的反對聲浪。
即使僅僅二十年前,問統計學家「是阿斯匹靈讓我頭不痛的嗎?」這類問題,簡直就像問他信不信巫毒教一樣。我們學校有個知名教授說,這問題「比較像聊天話題而不像科學問題」。但是到了現在,流行病學家、社會科學家、電腦科學家,以及至少某些開明的經濟學家和統計學家,已經經常提出這些問題,並精確解答它們。對我而言,這樣的改變不下於革命,我大膽稱它為因果革命(Causal Revolution)。這次科學界變革不再否定我們具備理解原因與結果的天賦,而是主動接受它。
因果革命不是效果不明的孤立事件,它蘊含的數學奧祕可說是因果的微積分,能夠解答古往今來最困難的因果關係問題。我發現這種微積分時非常興奮,不只因為它的發展歷程一波三折、非常有趣,更重要的是我認為它擁有極大潛力,日後的發展可能超乎我的想像……甚至可能超乎各位的想像。
(中略)
剛才我提到「會思考的機器」是刻意的。我是以電腦科學家身分研究人工智慧時,想到這個主題的。這主題讓大多數因果推論研究者分別走向兩個研究方向。首先,在人工智慧領域中,除非我們能教會機器人某個主題,否則就不算真正了解它,所以我一再強調記號、語言、詞彙和文法。舉例來說,我很愛研究我們是否能以某種語言表達某個主張,以及某個主張是否和其他主張吻合。單單只是遵循科學語句的文法,就能讓我們學到許多。我特別強調語言,也源自我深深相信語言會形塑思想。我們無法解答自己無法提出的問題,也不可能提出我們無法描述的問題。身為哲學和電腦科學研究者,我對因果推論的興趣,大多來自看見無人理解的科學語言從誕生到成熟。
促使我研究因果的另一因素,是我也投入機器學習領域。1980年代末,我發現「機器無法理解因果關係」可能是導致機器無法擁有人類智慧的關鍵。在本書的最後一章,我將會回歸根本,和讀者一起探討因果革命對人工智慧的影響。我相信我們能夠研發出強AI,而且正因為因果性是幫助我們研發出強AI的部分原因,我們不需要畏懼這樣的人工智慧。因果推理模組將使機器能夠反省錯誤、指出自身軟體中的缺點、具備道德本體,並與人類自然地談論自己的選擇和意圖。
(大標)現實世界的藍圖
在我們這個時代,大家一定聽過「知識」、「智慧」和「資料」,有些讀者或許搞不懂這些詞的差異或它們彼此間的作用。現在我想提出因果模型(causal model)這個詞。各位可能會覺得這會讓大眾更加混淆。
不會的!事實上它能使「知識」這個模糊不清的科學概念變得明確,同時給予資料具體而有意義的背景,並且讓我們了解這三者如何一同運作,解答困難的科學問題。〈圖I.1〉是「因果推論發動機」(causal inference engine)的藍圖,它可協助未來的人工智慧處理因果推論工作。重要的是大家必須了解,它不只是未來的藍圖,還能告訴我們因果模型如何運用在目前的科學用途上,以及因果模型如何與資料交互作用。
(中略)
因果模型還擁有資料探勘和深度學習所缺乏的另一個優點,就是適應能力。注意,在〈圖I.1〉中,被估量僅依據因果模型計算,不需要檢視資料特性。這點使因果推論發動機的適應能力格外強大,因為它計算出來的被估量適用於可用於定性模型的任何資料,不受變項間的數值關係影響。
想了解這種適應力為什麼很重要,可以比較這種發動機和學習者(在這個例子中是人類,但在其他例子中可能是深度學習演算法,或是使用深度學習演算法的人類)試圖單靠資料學習的結果。學習者觀察許多患者服用藥物D的結果L,可以預測具有特質Z的某患者存活L年的機率。現在學習者轉到另一所醫院,這家醫院位於另一個地區,人口特質(飲食、衛生、工作習慣)也不一樣。即使這些特質只改變了各項變項間的數值關係,學習者還是必須重新訓練自己,學習新的預測函數。深度學習程式能做的也只有這樣:讓函數與資料吻合。另一方面,如果學習者擁有說明藥物運作方式的模型,而且它的因果結構在新地點沒有改變,則學習者在訓練中取得的被估量將依然有效。這個被估量可套用在新資料上,針對另一群人口產出新的預測函數。
作者資料
朱迪亞・珀爾(Judea Pearl)
因為研發貝氏網路,而獲得有「電腦科學界諾貝爾獎」之稱的圖靈獎,著有三本極具影響力的科普書籍。珀爾是美國國家科學院院士,也是首先進入IEEE智慧系統名人堂的十名科學家之一,獲得的獎項與榮譽博士學位多不勝數,包括盧梅哈特獎(認知科學學會)、富蘭克林獎章(富蘭克林研究所)以及拉克托斯獎(倫敦經濟學院)。他目前擔任加州大學洛杉磯分校電腦科學教授,同時是丹尼爾‧珀爾基金會創辦人及執行長,目前住在洛杉磯。
達納‧麥肯錫(Dana Mackenzie)
數學博士,現為科普作家,經常為《科學》、《新科學家》、《科學美國人》、《史密森尼》、《鸚鵡螺》和《發現》等雜誌撰稿。他寫的書《大碰撞:月球是怎麼形成的?》(The Big Splat, or How Our Moon Came to Be)曾經獲選為Audible.com網站2010年最佳有聲書。麥肯錫曾獲2012年傳播獎(美國數學聯合政策委員會)與2015年查文尼特數學解說獎(美國數學學會),他現在住在加州聖克魯茲。
基本資料
作者:朱迪亞・珀爾(Judea Pearl)、達納‧麥肯錫(Dana Mackenzie)
譯者:甘錫安
出版社:行路
書系:FOCUS
出版日期:2019-06-26
ISBN:9789869753456
城邦書號:A3740015
規格:精裝 / 單色印刷 / 368頁 / 17.3cm×23.1cm
注意事項
- 本書為非城邦集團出版的書籍,購買可獲得紅利點數,並可使用紅利折抵現金,但不適用「紅利兌換」、「尊閱6折購」、「生日購書優惠」。
- 若有任何購書問題,請參考 FAQ