about 1 year ago

辛普森悖論是統計裡面的經典悖論
前些日子在一場研討會剛好孟曉犁教授提到這個悖論
並且這悖論跟現在很紅的大數據 資料科學有關係
因此我覺得值得在這邊跟大家分享一下

我們從一個真實的案例來談起
下面這是一個關於腎結石治療的統計圖表


簡單來說 醫生有兩種治療方法: A方法 與 B方法
而這兩套方法在腎結石的大小上 各自有不同的成功率
當結石是小顆的時候 A方法成功率是81/87 = 93% B方法的成功率是234/270 = 87%
當結石是大顆的時候 A方法成功率是192/263 = 73% B方法的成功率是55/80 = 69%
所以 不管在什麼情況下 A方法的成功率都比B方法還要高

但假設今天我們不知道結石的大小 單看兩套方法的治療成功率 則會得到
A方法成功率是 273/350 = 78%
B方法成功率是 289/350 = 83%
所以B方法比A方法成功率還高!

所以我們得到一個弔詭的事情---
假設今天我們什麼都不知道 那理性的選擇應該是採用B方法
但假設今天我們知道了結石的大小 那理性的選擇 "不管結石大顆小顆 都應該選A方法"

這樣子的一個弔詭的事情 就是所謂的辛普森悖論

為什麼我們會得到這樣子奇怪的事情?
你如果仔細看那個圖表 會發現一個關鍵--A和B方法在結石大小顆的兩種不同情況下 被使用的次數相當不同
大部分的A方法 都是被用在大顆的結石上
而大部分的B方法 都是使用於小顆的結石情況

而小顆的結石不管哪套方法 治療成功率都很高
因此這樣不相等的樣本數 導致當我們忽略結石大小時 B方法治療成功率被拉高

也就是 當我們把一套比較差的方法(方法B)用在比較簡單的問題上很多次時 將可能導致這套方法看起來變得比較有效 (但實際上並沒有)

其實你仔細觀察 接受A/B治療的情況 跟結石大小有非常重的相關性
這個相關性即是一個造成辛普森悖論的關鍵要素

辛普森悖論在科學推論與分析上非常重要 假設你的實驗設計不完善
則你可能推論出完全相反的結果
特別是當你的資料並不是經由嚴謹的科學設計去取得的情況

辛普森悖論對於資料科學家而言特別重要
因為許多所謂的大數據資料 並不是經由一套嚴謹的科學設計程序所取得的
很多資料是所謂的使用者自行回報的數據
這種類型的資料彼此之間往往有很大的相關性
因此做出來的推論很有可能產生辛普森悖論
所以在分析上要特別的小心

wikipedia上有許多相關的資料與案例值得閱讀:
https://en.wikipedia.org/wiki/Simpson%27s_paradox

← 統計找教職心得 寄信給教授的小提示 →
 
comments powered by Disqus