over 3 years ago

這幾年大數據(Big data)崛起
許多企業 學界都開始重視大數據對他們的影響
過去主要在研究資料(data)的統計學
也因此經常被拿來討論

最近有錯誤的說法認為 "大數據時代下 統計可能會變得過時"
這完全是錯誤的結論
因為統計學重視的問題 和大數據主要處理的問題
差異是非常非常大的

對統計學而言 最重要的問題是
"如何透過資料來對母體(population)做推論"
對自然科學而言 母體就是真實的自然界的運作機制
資料是來自自然界運作下的產物 而我們透過觀測的資料
去推論自然界的運作模式
所以統計學家非常重視所謂的 信賴區間、假設檢定等等方法
這些方法能夠讓我們透過資料去推論實際的母體狀況
因此 統計學最關心的是如何透過資料去進行科學推論

大數據主要在處理的問題是: 預測
我們先談談大數據的三"大"特性

  1. volume(資料含量)大
  2. velocity(資料產生速度)快
  3. variety(資料類型)多

大數據的資料還有一個隱藏特質:
這些資料的背後結構複雜 彼此之間充滿強烈相關性 並且難以把真實訊號與雜訊分離

但這種複雜的特性 對於做預測的影響並不太劇烈
因為我們有大量的樣本 多元的資料 因此可以交叉使用 淡化雜訊的影響
所以在進行"預測"這件任務之上 大數據可以做得非常成功
而大數據主要的用途也是進行預測
各大公司都希望能夠預測消費者行為 預測產品的銷售 預測客戶需求...等等
實際上 大數據在這些預測問題上 表現真的非常亮眼

推論與預測是相當不一樣的兩個問題
我們舉一個例子來看 假設今天政府有一筆統計資料 裡頭包含三個變數

  1. 台灣人/外國人 2. 薪水 3. 年齡 一個推論的問題會是"台灣人和外國人在同樣年齡之下 薪水是否有顯著差異?" 一個預測的問題會是"如何透過國籍還有年齡 去預測這個人的薪水?" 兩個問題有點相似 但卻是非常不一樣的

推論重視的是 因果關係 還有推論的合理性
因此需要的資料必須是非常乾淨 漂亮的
否則推論的成果可能很不合理

預測完全不需要在乎這些
對預測問題而言 最重要的是如何預測的"準"
一個不合理的模型 只要預測的準 就是好模型
因此資料複雜一點也沒關係 相關性強也不用擔心
我們依舊可以做出許多很好地預測

因此 統計學與大數據真正面對的敵人 是完全不一樣的

統計有趣的地方在於 統計方法除了推論之外
也可以進行預測
但統計的預測比較類似於 先去推論整個母體的運作機制
再透過這個推論出來的運作機制 進行資料產生過程的"預測"

大數據的出現 的確讓統計學在預測這塊稍受影響
因為大數據的嚴重問題就是 複雜的資料結構讓我們難以對母體進行推論
既然無法對母體推論 想做統計預測就會相對困難些
而大數據的分析工具 因為沒有對母體的推論就直接透過資料對資料的預測
就能避免難以推論的問題 自然做出的預測就相對有效

因此大數據時代之下 要用傳統統計方法進行"預測"
自然會相當相當的有問題 但這完全不表示統計學本體會有太大的影響
因為預測對統計學家而言不是最核心的問題
推論才是最關鍵的

所以 統計學的主要研究問題 還有大數據的主要目標
是完全不同的
大數據再怎麼火紅 也難以對統計學發展造成負面影響

事實上 大數據的發展反而使得統計學更受重視
因為統計理論早就指出統計方法在哪些情況下會有效 哪些情況下有問題
大數據的出現完全印證了統計理論的結果

而大數據分析方法常見的問題就是 難以解釋為什麼某些方法有效
這讓研究人員回頭探討方法背後的統計理論
看看理論是否能夠說明這些方法的有效性
結果大數據的發展 反而使更多人開始重視統計理論

← 生活中的尾端機率(tail probability) likelihood function迷思 →
 
comments powered by Disqus