almost 3 years ago

許多學統計出身的人 對現在Machine Learning(ML)崛起都感到驚訝
特別是在"預測" 這個工作上
Machine Learning的準確率高的讓統計學家望塵莫及

為什麼ML可以在預測上做得如此好呢?
特別是做classification-分類問題
統計在這塊領域上的預測很難跟ML相抗衡

然而 許多傳統統計的方法 像是kernel classifier
數學上都可以證明說 在某些情況下 這個classifier會收斂到Bayes classifier--亦即是最佳的分類方式
甚至這個收斂速率是最佳的(所謂的minimax rate)

但在實際資料上(特別是資訊/科技產業的資料)
ML裡的SVM(support vector machine), random forest, deep neural net等等
都幾乎輕易打敗傳統統計的方法
這究竟是什麼原因呢?

關鍵原因我認為有兩點
(1)統計常用的方法是最佳的情況 往往是資料彼此"獨立分配"之下才會發生
--這在科學資料上算合理假設 但在科技資料上 像是email的資料(給你email, 區分是否是垃圾郵件)
就不是一個合理的假設

(2)資料產生的機制 不一定能被機率模型漂亮的描述
--統計方法的最佳性 通常都建立在"機率模型"的數學架構之下
(不止統計 許多自然科學模型 都是建立在某些數學架構之下)
但實際世界不一定會符合機率模型 機率模型只是一個我們用來描述與分析世界的"模型"
當真實世界並不是機率模型 甚至差異很大時
機率世界裡最佳化的統計工具 就不能保證在真實問題上會是最佳的

在比較嚴謹收集的資料裡 機率機制與統計模型會是對資料有效的描述
但在其他的資料 像是資訊產業的資料
並不是透過嚴謹收集而來 因此傳統統計的方法 並不能保證是最佳的

相形之下 ML許多方法都著重在把問題看成一個最佳化的問題(optimization)
並且允許許多較為彈性的分析工具
即使不一定能數學上證明是比較好的方法
實際在處理問題上 彈性與最佳化 完全靠最佳化預測誤差 是很有可能達到比較好的預測成果
因此ML能在預測上表現的很好 其實並不算太奇怪

ML在預測上比統計好 其實是件好事
這表示我們世界比想像中的還要複雜得多
也表示還有很多問題值得我們去探討
像是一個存在於ML許多方法的隱憂:
難以找到一個好的數學模型去證明預測的優異性
--這點其實是統計學家可以和ML的人合作的地方--去證明某些方法在某些情況下是好的 或是最佳的
這不僅能夠讓我們可以從理論上的角度去理解為什麼ML的方法好
更能夠讓我們明白當今天某些方法出問題時 可能原因是哪些
而未來當我們要改善我們的方法時 我們也有一個比較明確的方向

ps.
統計整個領域的重心也不在預測上
統計主要是在建構一套完整的統計推論系統--亦即是如何透過資料 在允許誤差的情況下
推估出有興趣的參數 衡量估計量的誤差 建出信賴區間 並作假設檢定
這整套系統是準備給科學家們用在科學推論上的
而作為預測工具 一直都是統計比較次要的焦點

← Mode clustering: 一種model-free的clustering方法 淺談Bootstrap →
 
comments powered by Disqus