almost 4 years ago

Machine Learning和統計頗有關係
根據我老闆的詮釋 Machine Learning是統計學的分支
特別注重在預測問題 還有大資料下的資料預測

這幾年 Machine Learning在各行各業蓬勃發展
特別是科技業 簡直紅到一個不可思議的境界
這套學問能做的預測 經常神準到令人驚艷的地步

為什麼Machine Learning會如此的成功呢?
我覺得有兩個要素: 1. 只專注在預測上-更多的選擇 2. 現實問題的高複雜性

一般統計學 在分析資料時
是先透過對於這份資料的知識 來進行一個模型的建構
然後再來根據資料去把這個模型的參數估計出來 並進一步分析
這樣才能建構出一個科學上有意義的模型

但在Machine Learning裡頭 重要的是預測
所以只要能夠作為預測的模型 通通可以被考慮
不管這些預測模型是否合理或著有科學意義
最後我們使用的 是在預測誤差的估計下最佳的那個模型

這透露出一個關鍵:
因為我們只專注在預測上 所以我們的選擇非常多
在非常多選擇中找一個最棒的 自然成果會相當相當不錯
p.s.用專業術語來說 Machine Learning的模型空間(model space)非常巨大

現在我們談談另一個特性: 現實問題的高複雜性
我們要對現實有個認知: 所有的模型都是錯的 但我們只需要"有效"的模型就夠
現實是一個非常非常複雜的系統
幾乎不會出現理想上那樣完美的情況
我們頂多得到一個"很接近理想"的狀態

因此 傳統統計學的許多模型雖然在理想狀態下很好
但在現實情況下 永遠都會有一個無法消弭的模型偏差(model bias)
這個偏差源自於現實情況與理想狀態的隔閡
在科學問題上 這個隔閡只要夠小 就不是一個很嚴重的問題

但如果今天要最佳化我們的"預測" 我們就會想辦法把這個隔閡縮得更小
記得我們前面提過 Machine Learning具有相當多的選擇
要在如此多的選擇中 選一個最好的
自然更能夠降低這樣的隔閡

因此 複雜的問題像是: email的垃圾郵件/正常郵件的分類 人臉照片的辨識 數字的辨識等等
這些問題的真實情況都非常非常複雜 並且和理想狀態(例如統計的獨立性 相同分配性)差距非常大
在Machine Learning因為多元的模型選擇
我們就能夠增進我們的預測效果 進而大量降低誤差

所以 我覺得Machine Learning在當今會如此成功
正是因為這兩大因素:

  1. 只專注在預測上-更多的選擇
  2. 現實問題的高複雜性 使得這套學問在現實問題上 非常非常好用
← 統計、橋牌與人生 信賴區間的迷思 →
 
comments powered by Disqus