over 2 years ago

今天我們談談一個有趣的新方法來做回歸分析(regression analysis)
這個方法叫做(Nonparametric) Modal regression

回歸分析主要探討的就是
反應變數Y (response) 與獨立變數X (covariate/feature/independent variable)之間的關係
傳統的方法是找尋 Y在X給定=x之下的期望值
也就是我們要找 E[Y|X=x] = m(x) 裡面的函數m
(換句話說 我們在找的是給定X之下 Y的局部期望值--Conditional expectation)
一般所謂的線性回歸 就是假設m(x) = ax+b 然後去把a,b估計出來

而Modal regression是用另一種角度去探討Y與X的關係
Modal regression所專注的找尋 給定X之下 Y的局部最大值(Conditional local modes)
你可以想像Y在X給定之下 會有一個密度分配函數
然後這個密度函數會有幾個局部的最大值 這些局部最大值就是Modal regression想要找的

我們看下面這個例子:


這筆資料X和Y之間的關係較為複雜 我們可以看到有兩種模式同時在進行
在這種情況下 傳統的回歸分析方法會失效
因為X給定之下 Y的期望值會落在兩種模式的中間 就兩種模式都沒捕捉到
正如同下圖裡面的紅線

相對應的 如果我們來找給定X之下 Y分配函數的局部最大值
就會得到兩條藍線

很明顯的 藍線可以同時抓到兩種模式
而傳統回歸分析的紅線 不僅沒抓到 紅線附近還都沒有資料點

如果從預測的角度來探討
給定同樣的預測準確性
用Modal regression所產生的預測範圍
會比起用傳統回歸方法還要來的小
下面兩張圖分別是 傳統回歸方法的95%預測區間(上圖)
以及 Modal regression的95%預測區間(下圖)


下面這是另一個例子 有三個模式的訊號同時混在一起
我們同時放出傳統回歸的預測區間 以及 Modal regression的預測區間


這就非常明顯 傳統回歸分析的方法給了一個太大的預測區間
而Modal regression給了一個相對簡潔的區間

Modal regression另一個有趣的地方在於
他還可以拿來做clustering--這稱為regression clustering:



這種regression clustering提供一種找尋X與Y潛在模式的方法
我們可以先做這個regression clustering
再根據每個cluster 去單獨的fit一個回歸函數

傳統上 處理上述資料會使用所謂的mixture regression
但這個mixture regression會有很多問題
像是你需要給定幾個mixture量 還要跑所謂的EM-algorithm好幾次(還不一定會收斂到最佳解)

其實我們可以把Modal regression詮釋成 Nonparametric版本的mixture regression
下面這張表展現出 當訊號很複雜時 有兩大類的方法可以做
Mixture-based的方法 或著 Mode-based的方法


在clustering問題上
Mixture的代表作就是k-means
Mode的代表作就是mean shift clustering
在密度估計上
Mixture的代表方法就是Gaussian mixture model (GMM)
Mode的方法就是傳統的kernel density estimator (KDE)
而回歸分析裡面
Mixture就是透過mixture regression去做
Mode就是用Modal regression去解決

這個Modal regression的許多統計性質 包含誤差大小 信賴區間的建立
如何實際從資料去得到Modal regression (algorithm)
以及如何選擇tuning parameters
都在下面這篇paper裡面被談到 (裡面還提供一個R的script 可以直接拿來分析資料)
Yen-Chi Chen, Christopher R. Genovese, Ryan J. Tibshirani, Larry Wasserman. ``Non-parametric Modal Regression." http://arxiv.org/abs/1412.1716
有興趣的讀者可以去翻閱翻閱

← 淺談Bootstrap 常見的三大類型統計理論 →
 
comments powered by Disqus