6 months ago

這篇文章是受到 Prof. Xiao-Li Meng 的演講 "Statistical Paradises and Paradoxes in Big Data" 所啟發

最近看到市面上流竄著一些詭異的論述
說著什麼「大數據時代我們有接近母體的樣本數,統計學便失靈了!」

接近母體的大數據樣本真的給我們比較好的答案嗎?

我們先思考這個問題:
假設今天我們要估計台灣上PTT的人數
一個簡單隨機抽樣(SRS: simple random sampling)抽出1%母體的樣本
對上
一個大數據觀測型資料(observational study)涵蓋95%母體的樣本
哪一個估計誤差比較小?

一般所謂的大數據 使用的資料都是觀測型資料
所以我們接下來稱觀測型資料為 觀測型大數據

當然 答案跟假設有關係
但接下來的分析你會發現 即使微量的抽樣偏差,也會導致簡單隨機抽樣的樣本給你比較好的估計

假設我們要推論台灣上PTT的比率
令變數p表示真正有上PTT的比率

在簡單隨機抽樣裡面 每個人被隨機抽樣抽到的機率 和 這個人是否有上PTT 這兩件事情是完全獨立的
基本統計學告訴我們
一個樣本數n的簡單隨機抽樣 偏差值(bias)是0 而變異數是

在觀測型大數據裡面 一個人被抽到的機率 跟 這個人是否有上PTT 很可能是相關的
(舉例來說 這個觀測型資料是透過網路問卷分析)
假設今天這個相關性correlation是一個值 r
因為我們假設觀測型大數據樣本數很大 所以我們可以忽略他的變異數
令 f 表示觀測型大數據所涵蓋整個母體的比率
在這種情況下 偏差值會是

(這個公式是從Prof. Meng的文章裡得到的 請參閱章節45.4.1於http://www.stat.harvard.edu/Faculty_Content/meng/COPSS_50.pdf)

我們一般使用所謂的平均平方誤差MSE(mean square error)來描述估計的誤差大小
MSE有個特色:
因此 簡單隨機抽樣 還有 觀測型大數據的誤差分別是

這個比較告訴了我們什麼?
假設 觀測型大數據的抽樣誤差之相關性 r=0.1
那麼今天一個樣本數100的小樣本簡單隨機抽樣
和一個觀測型大數據涵蓋「一半的母體」(f=0.5)
擁有一樣的誤差!

這差異有多大?
假設台灣有2400萬人口
那麼 你的觀測型大數據方法需要收集1200萬人的資料
(即使在台灣 這還是很困難)
才能得到跟簡單隨機抽樣100人一樣的誤差
這一差可是差了12萬倍的樣本數!!!
(而且很容易看出來的 母體數量越大這個差異越大)

即使你今天的抽樣誤差相關性 r=0.05
樣本數100的簡單隨機抽樣依舊擁有等同於觀測型大數據涵蓋20%母體的誤差

許多觀測型大數據產生的相關性很可能遠高於 r=0.1
在這種情況 光是要達到100個簡單隨機抽樣同等誤差的樣本 就會非常非常巨大

回到一開始的問題 假設 r=0.1
台灣人口有2400萬人
1%的簡單隨機抽樣就有24萬人的樣本數
這樣樣本的誤差 觀測型大數據需要涵蓋99.95%人口才能達到!

觀測型大數據還會有個致命問題
如果你去計算信賴區間 你會得到一個超小的信賴區間
因為信賴區間一般來說只計算了隨機變異造成的誤差 並不會考慮到偏差的量
所以你無法控制/估計你的偏差大小!!
相對的 簡單隨機抽樣的估計值你還可以得到一個有效的信賴區間

所以大數據的資料真的有比較好用嗎?
這是很值得深思的

大數據有大數據好用的地方
但要切記 不要亂用

相關資料:

  1. 投影片 http://ww2.amstat.org/misc/XiaoLiMengBDSSG.pdf
  2. Youtube版本 https://www.youtube.com/watch?v=8YLdIDOMEZs
  3. 相關文章 Meng, Xiao-Li. ``A trio of inference problems that could win you a Nobel prize in statistics (if you help fund it)." Past, Present, and Future of Statistical Science (2014). http://www.stat.harvard.edu/Faculty_Content/meng/COPSS_50.pdf
← 淺談Statistical Functional mechanistic versus agnostic →
 
comments powered by Disqus