about 3 years ago

最近我跟科學家合作
發現有個non-parametric的方法
很常被科學家用來視覺化+簡單分析
這個方法叫做regressogram
簡單來說 就是 regression using histogram (用直方圖來做回歸分析)

下面是一個使用regressogram的例子
這是一個宇宙模擬的資料 每個點都是一個星系的某些特性
X軸是這個星系與某個結構的距離
Y軸是這個星系與那個結構的相關性
我們有興趣的是 Y是否會隨著X變化


原始資料看起來很複雜

所以我們第一階段 先把整個X的區間分成好幾個小小的子區間(用紅線標示區間)

接著我們在每個區間裡面 取平均值(藍色的點)


這些藍色的點 象徵著資料在這一個區間的平均值
因此 觀察藍色點的變化(我用藍色的線表示)
就能大致得出一些結論
這套分析方法 就是所謂的regressogram
基本上 藍色的點可以看成在這個區間內你做regression的預測值

很多時候 在跟別人介紹分析成果時 我們不會把資料點展示出來
不然整張圖很複雜
所以我們通常只展示了regressogram

更多時後 因為我們有興趣的是X與Y的關係
所以我們可以zoom-in 只看Y的一個小區間即可


(注意Y現在的值僅介於0.7~0.8之間)
藍色的bar 是所謂的error bar
表示regressogram的估計誤差
regressogram最大的好處就是
每個區間的誤差非常好計算: 區間內的樣本平均誤差
也就是 我們假裝我們只有區間內這些點
樣本平均的誤差 = 樣本標準差/樣本數的平方根

很多科學的期刊 regressogram是很常見的視覺化與分析工具
但regressogram在統計界裡面很少被提到
原因之一可能是有太多統計分析上比regressogram還要精確的方法
像是 local regression, splines, kernel regression...

不過regressogram的好處是 非常直觀 非常好理解
並且在視覺化資料的結構上 還算挺不錯的
只要這個區間取的有意義
基本上egressogram就是利用區間內的平均值作為一個summary statistics
所以即使資料數量很大或很複雜 依舊可以用簡單的幾個統計量來描述整個資料的趨勢

← 資料 : 數位黃金 Mode clustering: 一種model-free的clustering方法 →
 
comments powered by Disqus