about 2 years ago

這次我們來談談隨機變數的獨立性(independence)
假設今天有兩個隨機變數: 變數X 還有變數Y

當我們說他們是獨立的隨機變數時
就表示: 不管X跑出怎樣的結果 都不會影響Y的機率分配 (反之亦然)

一個類似獨立性的特質叫做 "相關性"(correlation)
相關性可以看成一種衡量兩個變數"線性關係"的量
X和Y獨立 => X和Y之間的相關性=0
但千萬要記得: 相關性=0並不表示變數獨立
下面是一個經典案例: 假設X 有三種可能:{-1, 0, 1} 每種可能的機會都是1/3
我們令Y = X^2
很明顯的Y和X並不獨立(基本上給定X的值 Y的值就完全被決定)
然則X和Y之間的correlation是0

雖然相關性僅僅是獨立性的最低階版本
但在常態分配時 相關性和獨立性卻是等價的
也就是 假如今天X,Y都是常態分配 那麼
X,Y獨立 <=> X,Y相關性=0

我曾聽人說過 機率論之所以可以從測度論外延伸出自己的領域
關鍵就是獨立性這個特質太強大 使得許多變數被同時使用時 會出現concentration of measure的效應
(舉例來說: 獨立樣本的樣本平均數會機率收斂到母體平均數 也就是probability measure會集中在某個值)

接下來我們談一點進階的問題: 獨立性檢定(Test for independence)
這是當我們同時收集到兩個變數(X,Y)時
而我們收集了n組這樣的兩個變數 我們想要檢定X和Y之間的分配是否為獨立的

當今天兩個變數都是離散時
常見的方法是
Pearson's chi-squared test for independence
https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test#Test_of_independence
背後原理是利用獨立分配的情況VS實際觀測情況的差異來作為檢定
(其實所有的方法幾乎都是靠這招)

當今天變數是連續變數時 問題就比較複雜一些
但如果我們假設X,Y是常態分配
那問題就簡化成"檢定correlation=0"
這是因為常態分配時 獨立=零相關性

如果不是常態分配 雖然問題很複雜
但其實已經有很多方法可以來檢定
先介紹最經典的Hoeffding's Test
Hoeffding, Wassily. "A non-parametric test of independence." The Annals of Mathematical Statistics (1948): 546-557.
http://projecteuclid.org/euclid.aoms/1177730150
簡單來說 就是利用empirical cumulative distribution來檢定
一樣是: 獨立情況的分配VS實際觀測的情況

除了上述方法外 也可以利用密度估計來檢定
利用兩變數的各自密度估計相乘 對上 同時對兩變數的密度估計
Rosenblatt在1975就提出這套方法 使用kernel density estimate來估計
Rosenblatt, Murray. "A quadratic measure of deviation of two-dimensional density estimates and a test of independence." The Annals of Statistics (1975): 1-14.
https://projecteuclid.org/euclid.aos/1176342996

這幾年有兩套新方法被提出來進行獨立性檢定(ps. 他們同時也都有two-sample test, 檢定兩變數分配是否一樣)
第一個路線是distance covariance (distance correlation)方法
或俗稱的energy test
詳情可以看下面
https://en.wikipedia.org/wiki/Distance_correlation
他們對應的獨立性檢定則可以看
Székely, Gábor J., Maria L. Rizzo, and Nail K. Bakirov. "Measuring and testing dependence by correlation of distances." The Annals of Statistics 35, no. 6 (2007): 2769-2794.
http://projecteuclid.org/euclid.aos/1201012979

另一個路線則是運用所謂的RKHS (Reproducing Kernel Hilbert Space)
來進行獨立性檢定
詳情可以參閱
Gretton, Arthur, and László Györfi. "Consistent nonparametric tests of independence." The Journal of Machine Learning Research 11 (2010): 1391-1423.
http://www.jmlr.org/papers/volume11/gretton10a/gretton10a.pdf

獨立性檢定一直都是統計裡面重要的領域
上面談的文獻通常是專注在理論與方法發展上
但實際上怎樣的方法具有較好的power 依舊是根據資料而有所差異
當今天有一組資料具有額外資訊時
如何運用額外資訊獲得檢定的power 仍舊是當今研究的課題

至於機率論上討論相依性(dependence)
則有所謂的alpha-mixing, beta-mixing等等的模式
詳情可以參考
https://en.wikipedia.org/wiki/Mixing_(mathematics)
這在時間序列(Time series)的問題上特別常被使用到

← 淺談Clustering的收斂性 統計與人生雜感1-豁達 →
 
comments powered by Disqus