about 1 year ago

這次我們來談談隨機變數的獨立性(independence)
假設今天有兩個隨機變數: 變數X 還有變數Y

當我們說他們是獨立的隨機變數時
就表示: 不管X跑出怎樣的結果 都不會影響Y的機率分配 (反之亦然)

一個類似獨立性的特質叫做 "相關性"(correlation)
相關性可以看成一種衡量兩個變數"線性關係"的量
X和Y獨立 => X和Y之間的相關性=0
但千萬要記得: 相關性=0並不表示變數獨立
下面是一個經典案例: 假設X 有三種可能:{-1, 0, 1} 每種可能的機會都是1/3
我們令Y = X^2
很明顯的Y和X並不獨立(基本上給定X的值 Y的值就完全被決定)
然則X和Y之間的correlation是0

雖然相關性僅僅是獨立性的最低階版本
但在常態分配時 相關性和獨立性卻是等價的
也就是 假如今天X,Y都是常態分配 那麼
X,Y獨立 <=> X,Y相關性=0

我曾聽人說過 機率論之所以可以從測度論外延伸出自己的領域
關鍵就是獨立性這個特質太強大 使得許多變數被同時使用時 會出現concentration of measure的效應
(舉例來說: 獨立樣本的樣本平均數會機率收斂到母體平均數 也就是probability measure會集中在某個值)

接下來我們談一點進階的問題: 獨立性檢定(Test for independence)
這是當我們同時收集到兩個變數(X,Y)時
而我們收集了n組這樣的兩個變數 我們想要檢定X和Y之間的分配是否為獨立的

當今天兩個變數都是離散時
常見的方法是
Pearson's chi-squared test for independence
https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test#Test_of_independence
背後原理是利用獨立分配的情況VS實際觀測情況的差異來作為檢定
(其實所有的方法幾乎都是靠這招)

當今天變數是連續變數時 問題就比較複雜一些
但如果我們假設X,Y是常態分配
那問題就簡化成"檢定correlation=0"
這是因為常態分配時 獨立=零相關性

如果不是常態分配 雖然問題很複雜
但其實已經有很多方法可以來檢定
先介紹最經典的Hoeffding's Test
Hoeffding, Wassily. "A non-parametric test of independence." The Annals of Mathematical Statistics (1948): 546-557.
http://projecteuclid.org/euclid.aoms/1177730150
簡單來說 就是利用empirical cumulative distribution來檢定
一樣是: 獨立情況的分配VS實際觀測的情況

除了上述方法外 也可以利用密度估計來檢定
利用兩變數的各自密度估計相乘 對上 同時對兩變數的密度估計
Rosenblatt在1975就提出這套方法 使用kernel density estimate來估計
Rosenblatt, Murray. "A quadratic measure of deviation of two-dimensional density estimates and a test of independence." The Annals of Statistics (1975): 1-14.
https://projecteuclid.org/euclid.aos/1176342996

這幾年有兩套新方法被提出來進行獨立性檢定(ps. 他們同時也都有two-sample test, 檢定兩變數分配是否一樣)
第一個路線是distance covariance (distance correlation)方法
或俗稱的energy test
詳情可以看下面
https://en.wikipedia.org/wiki/Distance_correlation
他們對應的獨立性檢定則可以看
Székely, Gábor J., Maria L. Rizzo, and Nail K. Bakirov. "Measuring and testing dependence by correlation of distances." The Annals of Statistics 35, no. 6 (2007): 2769-2794.
http://projecteuclid.org/euclid.aos/1201012979

另一個路線則是運用所謂的RKHS (Reproducing Kernel Hilbert Space)
來進行獨立性檢定
詳情可以參閱
Gretton, Arthur, and László Györfi. "Consistent nonparametric tests of independence." The Journal of Machine Learning Research 11 (2010): 1391-1423.
http://www.jmlr.org/papers/volume11/gretton10a/gretton10a.pdf

獨立性檢定一直都是統計裡面重要的領域
上面談的文獻通常是專注在理論與方法發展上
但實際上怎樣的方法具有較好的power 依舊是根據資料而有所差異
當今天有一組資料具有額外資訊時
如何運用額外資訊獲得檢定的power 仍舊是當今研究的課題

至於機率論上討論相依性(dependence)
則有所謂的alpha-mixing, beta-mixing等等的模式
詳情可以參考
https://en.wikipedia.org/wiki/Mixing_(mathematics)
這在時間序列(Time series)的問題上特別常被使用到

 
about 1 year ago

Clustering可以說是三大常見統計問題之一
(另外兩個是regression還有classification)
簡單來說 clustering就是當給定一群資料後
靠資料點之間的相似性 把資料點分成幾個群


(上圖是mean shift clustering)

而進行clustering的方法也有好幾種
常見的有 k-means clustering, spectral clustering, mean shift clustering, hierachical clustering ...等等

如果你讀統計文獻 談到clustering總會覺得跟一般統計問題不太一樣
因為一般統計文獻很重視"統計收斂性"
也就是當樣本數越來越大時 會有怎樣的表現
但clustering比較少文獻探討統計收斂性

這個關鍵在於
"描述clustering的收斂性並不容易"

一般來說clustering就是把資料點分群
但收斂性探討的是當資料點的數量n趨近於無限大時的表現性
在這情況下clustering會變成要把"無限多個點分群"
有限的點很好探討分群
但無限多個點 要怎麼分群 並不是一個好操作的事情

這篇我簡單談一下三個常見的clustering方法的收斂性:
k-means clustering, spectral clustering, 以及mean shift clustering
有趣的是 這三個方法用了不同的方式來刻劃收斂性

1. k-means clustering--

Pollard, David. "Strong consistency of $ k $-means clustering." The Annals of Statistics 9, no. 1 (1981): 135-140.

k-means的特性是 clustering的成果完全由那k個中心所決定
所以只要能夠證明根據樣本的k個中心 會收斂到 根據"真實分配函數"定義出來的k個中心
就能夠描述收斂性 而這正是Pollard[1981]裡面談的方法

2. Spectral clustering--

Von Luxburg, Ulrike, Mikhail Belkin, and Olivier Bousquet. "Consistency of spectral clustering." The Annals of Statistics (2008): 555-586.

Spectral clustering利用的是資料點與資料點之間的距離矩陣
(這個矩陣的[i,j]元素即是資料點i與資料點j的距離)
適當的重整劃過後 進行eigen-decomposition然後用最大的幾個eigenvectors來進行k-means clustering
(最大的幾個eigenvectors: 大小是根據對應的eigenvalues)

Von Luxburg et. al.[2008]證明收斂性的方式很優雅
因為整個關鍵是前面幾個eigenvectors
所以他們把問題從linear operator的角度出發
(類似把距離矩陣看成一個linear operator)
而linear operator本身就俱有eigenvectors
因此前面幾個eigenvectors可以看成一個基於"樣本"所產生的linear operator
接著定義一個根據"真實資料分配(母體)"所建構出來的linear operator
最後只要證明樣本的operator的前面幾個eigenvectors會收斂到母體的對應量即可

3. Mean shift clustering--

Chen, Yen-Chi, Christopher R. Genovese, and Larry Wasserman. "Statistical Inference using the Morse-Smale Complex." arXiv preprint arXiv:1506.08826 (2015).

Mean shift clustering的收斂性是最近才剛剛被證出來
Mean sfhit的特色是: 他完全是靠著kernel density estimator來估計密度 然後用mode clustering去做分群
因此 比較的對象非常明確--即是mode clustering基於母體的資料密度函數

Chen et. al.[2015]描述收斂性的方法很直接--靠著clusters彼此的邊界來探討
在母體密度函數下 我們clusters會有邊界D
根據樣本 我們會產生clusters邊界E
我們只要說明邊界E收斂到邊界D即可說明mean shift會收斂
而這篇文章的重點也在於如何證明邊界E會收斂到邊界D
(他們其實證明了廣義上的mode clustering的收斂性)

---

雖然這三個方法收斂性的描繪不盡相同
他們其實都俱有下列的性質

  1. 定義一個母體的clustering結構 (k-means是靠k個中心; spectral是靠前面幾個eigenvectors; mean shift靠clusters的邊界)
  2. 說明如何在這樣的結構下定義"收斂" (數學上就是找一個metric 讓這些可能的結構成為一個metric space)
  3. 證明樣本的clustering結構收斂到母體的結構

基本上 上述這三個性質就是要把clustering的問題轉換成估計(estimation)的問題
因此可以探討所謂的收斂性

做實務的人可能會問 為什麼我們在乎clustering的收斂性?
除了這個問題理論上本身有趣之外
收斂性會告訴我們當我們收集到越來越多樣本後 我們clustering的結果是穩定的
此外 收斂的對象(母體的clustering結構)多半告訴我們這套clustering背後再運用的是怎樣的數學/統計模型
這在詮釋clustering上非常好用
而證明收斂性的定理往往需要一些假設
當今天一筆資料某個clustering方法失敗 我們就能知道某些假設是不滿足的--這往往能夠引導我們往後的處理

 
over 1 year ago

今天我們談談一個有趣的新方法來做回歸分析(regression analysis)
這個方法叫做(Nonparametric) Modal regression

回歸分析主要探討的就是
反應變數Y (response) 與獨立變數X (covariate/feature/independent variable)之間的關係
傳統的方法是找尋 Y在X給定=x之下的期望值
也就是我們要找 E[Y|X=x] = m(x) 裡面的函數m
(換句話說 我們在找的是給定X之下 Y的局部期望值--Conditional expectation)
一般所謂的線性回歸 就是假設m(x) = ax+b 然後去把a,b估計出來

而Modal regression是用另一種角度去探討Y與X的關係
Modal regression所專注的找尋 給定X之下 Y的局部最大值(Conditional local modes)
你可以想像Y在X給定之下 會有一個密度分配函數
然後這個密度函數會有幾個局部的最大值 這些局部最大值就是Modal regression想要找的

我們看下面這個例子:


這筆資料X和Y之間的關係較為複雜 我們可以看到有兩種模式同時在進行
在這種情況下 傳統的回歸分析方法會失效
因為X給定之下 Y的期望值會落在兩種模式的中間 就兩種模式都沒捕捉到
正如同下圖裡面的紅線

相對應的 如果我們來找給定X之下 Y分配函數的局部最大值
就會得到兩條藍線

很明顯的 藍線可以同時抓到兩種模式
而傳統回歸分析的紅線 不僅沒抓到 紅線附近還都沒有資料點

如果從預測的角度來探討
給定同樣的預測準確性
用Modal regression所產生的預測範圍
會比起用傳統回歸方法還要來的小
下面兩張圖分別是 傳統回歸方法的95%預測區間(上圖)
以及 Modal regression的95%預測區間(下圖)


下面這是另一個例子 有三個模式的訊號同時混在一起
我們同時放出傳統回歸的預測區間 以及 Modal regression的預測區間


這就非常明顯 傳統回歸分析的方法給了一個太大的預測區間
而Modal regression給了一個相對簡潔的區間

Modal regression另一個有趣的地方在於
他還可以拿來做clustering--這稱為regression clustering:



這種regression clustering提供一種找尋X與Y潛在模式的方法
我們可以先做這個regression clustering
再根據每個cluster 去單獨的fit一個回歸函數

傳統上 處理上述資料會使用所謂的mixture regression
但這個mixture regression會有很多問題
像是你需要給定幾個mixture量 還要跑所謂的EM-algorithm好幾次(還不一定會收斂到最佳解)

其實我們可以把Modal regression詮釋成 Nonparametric版本的mixture regression
下面這張表展現出 當訊號很複雜時 有兩大類的方法可以做
Mixture-based的方法 或著 Mode-based的方法


在clustering問題上
Mixture的代表作就是k-means
Mode的代表作就是mean shift clustering
在密度估計上
Mixture的代表方法就是Gaussian mixture model (GMM)
Mode的方法就是傳統的kernel density estimator (KDE)
而回歸分析裡面
Mixture就是透過mixture regression去做
Mode就是用Modal regression去解決

這個Modal regression的許多統計性質 包含誤差大小 信賴區間的建立
如何實際從資料去得到Modal regression (algorithm)
以及如何選擇tuning parameters
都在下面這篇paper裡面被談到 (裡面還提供一個R的script 可以直接拿來分析資料)
Yen-Chi Chen, Christopher R. Genovese, Ryan J. Tibshirani, Larry Wasserman. ``Non-parametric Modal Regression." http://arxiv.org/abs/1412.1716
有興趣的讀者可以去翻閱翻閱

 
about 1 month ago

辛普森悖論是統計裡面的經典悖論
前些日子在一場研討會剛好孟曉犁教授提到這個悖論
並且這悖論跟現在很紅的大數據 資料科學有關係
因此我覺得值得在這邊跟大家分享一下

我們從一個真實的案例來談起
下面這是一個關於腎結石治療的統計圖表


簡單來說 醫生有兩種治療方法: A方法 與 B方法
而這兩套方法在腎結石的大小上 各自有不同的成功率
當結石是小顆的時候 A方法成功率是81/87 = 93% B方法的成功率是234/270 = 87%
當結石是大顆的時候 A方法成功率是192/263 = 73% B方法的成功率是55/80 = 69%
所以 不管在什麼情況下 A方法的成功率都比B方法還要高

但假設今天我們不知道結石的大小 單看兩套方法的治療成功率 則會得到
A方法成功率是 273/350 = 78%
B方法成功率是 289/350 = 83%
所以B方法比A方法成功率還高!

所以我們得到一個弔詭的事情---
假設今天我們什麼都不知道 那理性的選擇應該是採用B方法
但假設今天我們知道了結石的大小 那理性的選擇 "不管結石大顆小顆 都應該選A方法"

這樣子的一個弔詭的事情 就是所謂的辛普森悖論

為什麼我們會得到這樣子奇怪的事情?
你如果仔細看那個圖表 會發現一個關鍵--A和B方法在結石大小顆的兩種不同情況下 被使用的次數相當不同
大部分的A方法 都是被用在大顆的結石上
而大部分的B方法 都是使用於小顆的結石情況

而小顆的結石不管哪套方法 治療成功率都很高
因此這樣不相等的樣本數 導致當我們忽略結石大小時 B方法治療成功率被拉高

也就是 當我們把一套比較差的方法(方法B)用在比較簡單的問題上很多次時 將可能導致這套方法看起來變得比較有效 (但實際上並沒有)

其實你仔細觀察 接受A/B治療的情況 跟結石大小有非常重的相關性
這個相關性即是一個造成辛普森悖論的關鍵要素

辛普森悖論在科學推論與分析上非常重要 假設你的實驗設計不完善
則你可能推論出完全相反的結果
特別是當你的資料並不是經由嚴謹的科學設計去取得的情況

辛普森悖論對於資料科學家而言特別重要
因為許多所謂的大數據資料 並不是經由一套嚴謹的科學設計程序所取得的
很多資料是所謂的使用者自行回報的數據
這種類型的資料彼此之間往往有很大的相關性
因此做出來的推論很有可能產生辛普森悖論
所以在分析上要特別的小心

wikipedia上有許多相關的資料與案例值得閱讀:
https://en.wikipedia.org/wiki/Simpson%27s_paradox

 
6 months ago

Background:

2007-2011 B.S in Physics at NTU
2011-2012 當兵T____T
2012-2016 Ph.D in Statistics at Carnegie Mellon University
Advisors (有3位):

  • Larry Wasserman (Statistics/Machine Learning)
  • Christopher Genovese (Statistics)
  • Shirley Ho (Physics/Astronomy)

Research Areas:

  • Statistics: nonparametric statistics, empirical processes, topological data analysis, applied statistics
  • Machine Learning: cluster analysis, statistical learning theory
  • Cosmology: large-scale structure, astrostatistics

Publications:

  • 3*統計期刊 (2*Annals of Statistics, 1*Electronic Journal of Statistics)
  • 1*Machine Learning conference (1*NIPS)
  • 3*天文期刊 (2*MNRAS, 1*ApJS)
  • 其他8篇preprint/under review
  • ps. 統計的發表量都很少 許多頂尖學校只要1-3篇就可以畢業

Interviews:

投25家 拿到13家on-site面試 都是Assistant Professor (tenure-track) 最後拿到4個offers
統計系:
Stanford, University of Washington, University of Michigan, University of Pennsylvania, Columbia, Cornell, UC-Davis, Ohio State, Rice, UIUC, UT-Austin
商學院:
University of Chicago-Booth, USC-Marshall

Final decision:

University of Washington
這間是我最想去的學校 研究領域全面 學術聲望好(Top 5統計系) 地點好 其他教授們也好相處 地靈人傑啊~


以下心得不一定適用所有場合
我的情況是

  • 統計領域
  • 研究型大學
  • Assistant Professor (tenure-track)

Chapter 1 綜合心得:

Section 1 學術:

我覺得走學術最重要的是個性
要對學術非常有熱情
而且要有奇妙的洞察能力
常常能夠從新的角度看原本的問題
研究跟 寫作業 考試 是頗不一樣的活動

我很喜歡做研究 基本上我不會算我做研究的時間
因為我沒別的事情時就是在做研究
所以我才會找了3個advisors (他們都是好朋友)
讓生活可以充斥各種有趣的研究

Advisors多的好處就是能有許多research meetings
舉例來說 上學期我有
2*individual meetings
5*project meetings
5*group meetings
一共12個meetings 然後我就過得特別開心
ps. 這學期我只有8個meetings 所以我就有一點憂鬱 嗚嗚...

另外老闆和你研究的氣場合不合很重要
我曾有一篇文章是一個週末和我老闆L寫出來的
(兩個無聊男子(?)的週末休閒活動)

做研究 解題技巧不能太差 但並不需要很頂尖
重要的是如何不斷的從不同角度看原本的問題
還有看出不同問題之間的關聯性

Section 2 統計:

統計是個很奇妙的領域
需要一定基礎的數學 (高等微積分、數學系線性代數是PhD課程的基礎 老師會預設你知道)
建議要有實分析的基礎 懂一點基本的泛函分析會讓生活比較愜意
但並不需要太深入的抽象數學

統計學與科學的關係非常深遠
統計學主要就是建構整套科學資料分析與推論的基礎
所以從科學領域 不管是自然科學或社會科學 轉入統計學往往會有額外的優勢
(前提是你的數學程度要足夠)

而這幾年統計整個領域也在劇烈轉變中
因為受到data science, machine learning(ML)的影響
基於統計與科學還有ML的親密關係
你在科學/ML領域的發表是有額外加分的
(前提是: 你在統計本身領域要有足夠好的發表)

Section 3 教職:

統計領域找教職不一定要做postdoc 但主要關鍵還是你的推薦信與發表數
一般大概50%的人會做postdoc 50%的人會從博士班直攻教職
做postdoc的好處是你可以收集到比較多推薦信 也可以累積比較多的發表數

找教職競爭其實很劇烈
除了有PhD, postdoc之外
還會有已經在當教授的人 因為一些原因跑回來找教職
或著visiting/clinical assistant professor要轉tenure-track position跑過來申請

ps. visiting/clinical assistant professor: 通常是2-4年 固定年限的助理教授缺 不能申請終身職
所以他們最終如果要待在學術界 還是會跑來找tenure-track的缺

其實PhD雖然發表量往往會輸人家
但優點是如果你博士班就能有很好的成果 通常人家會認為你的潛力比較大
這也是提早畢業的優勢
像我博士班只讀了4年 只要展現出4年的發表不輸給其他競爭者 自然就會被認定比別人有潛力

其實後來覺得找教職應該讀久一點博士班
今天早上醒來突然發現自己不久之後要當教授了 覺得可怕(驚

Chapter 2 申請前準備心得:

Section 1 過程:

8-12月: 投遞申請資料

  • 有些學校11月就截止 要注意截止日期

通常需要準備:

  • CV
  • 3-5封推薦信
  • research statement
  • teaching statement
  • 0-3篇代表作

裡面最關鍵的是推薦信還有CV
但這些都是需要長時間才能培養好的

許多老師說research/teaching statement基本上不太有人看
但當我們的last name不是西方國家的名字時
你至少要確保這兩者內容的英文都是正確且流利的
(有老師跟我說這點很重要)

而學校方面 招生的運作大致是如下 (聽說)
由search committee主要負責
從上百封的申請者裡 選10-30個出來
然後讓系上大家來看 最後開會決定要邀請誰來on-site interview
一個位置通常會邀請4-8個人來面試

Section 2 CV:

CV來講 可以分成三個面向: 研究 教學 服務

重要性聽說是
研究>>教學>>>>服務

  • 研究
    研究是最重要的
    很強的研究 就算完全沒有教學與服務的經驗 也是有機會找到很好的工作
    而研究面向裡
    最有地位的就是文章發表
    在統計界 數量不是最要緊的 重點是文章發表的期刊還有內容深度
    另外發表領域的”廣度"也會有加分效果
    除了文章發表外 presentation也會有加分
    特別是到invited Talk等級的presentation 加分不少
    (但學生很難拿到invited Talk 通常靠老闆推薦才能拿到)
    至於其他研究經驗(當RA之類的) 聽說效果不大

  • 教學
    Instructor >>> TA >>>Grader
    能有機會擔任Instructor對於教學加分很大
    TA也是會少量加分的經歷
    我曾聽說過 如果從頭到尾沒有任何教學經驗 可能會扣一點分

  • 服務
    擔任期刊reviewer會加一些分 特別是頂尖期刊 加分會更多
    (這通常也是要靠老闆們推薦你當reviewer才拿得到)
    協辦一些活動也會微量加一些分

  • 其他
    Honor and award聽說沒有什麼用.. 但有總比沒有好
    例外的是聽說teaching award (excellent teaching)之類的反而加分加很大
    (研究的獎似乎比不過教學的獎)

至於什麼東西可以放進CV? 有一個基本原則
只要跟學術有關 並且當人家要你解釋時你可以說明該經驗 就可以放進去
(如果你只寫過python幾次 就不要說你會用python 不然人家一問你可能就倒了)

Section 3 推薦信:

推薦信的影響力是最大的
我看過很多頂尖的申請者 文章發表沒有特別突出 但一樣能拿到很多面試
關鍵就是他們有極為強大的推薦信

聽說推薦信有三個要素
1: 推薦人要很有名
2: 推薦人跟你要很熟
3: 推薦人要幫你說好話
而且聽說這三個要素是相乘--也就是只要少一個你就慘了

根據我老闆的說法 推薦信最好要找跟你有「合寫過」文章的老師比較好
所以平常能多跟不同老師合作就要多合作

Section 4 老闆:

老闆很重要 老闆很重要 老闆很重要 (因為很重要所以要講三次)

最佳狀態是找 好老闆+神老闆+名老闆

除了指導你之外 老闆可以提供你非常多的資源
舉例來說 invited talk, reviewer這兩個經驗幾乎都是老闆推薦你才拿得到
老闆能夠幫你找很多合作者 (然後他們就能幫你寫推薦信)
老闆還能送你去當visiting scholar, 在演講時把credits給你, 朋友來訪時/去外校訪問時大力推薦你...

我老闆們就對我很好 我的7場invited talk裡 4場是他們推薦我去的
(另外3場是台大老師邀請我回去給演講)
而且我目前所有的發表裡 一共有16個不同的合作者
都是三位老闆們幫我四處找來的
他們被邀請去給演講 也都會大力推薦我 讓我感動的痛哭流涕啊T___T

Section 5 人脈:

人脈很重要 你的人脈和你老闆的人脈都很重要
決定你拿不拿得到面試的隱藏要素之一就是人脈
單靠人脈拿不到面試 但當一群實力強的人在競爭面試機會時
人脈可能就會是最後一個關鍵

人脈可以分成 校內人脈與校外人脈
校內人脈就是你跟系上「非合作者」的教授們的關係
別以為人家跟你沒合作 就不會有影響力
教授們常常會跟他們的它校教授朋友們聊天
大家都喜歡你 你的名聲其實是會傳到其他學校的
我們系上還有老師特別跟他朋友推薦我 (後來我有拿到他朋友學校的面試)
即使這位教授我完全沒合作過 也沒修過他的課

校外人脈的重要性就不用說了
參加研討會是很好建立校外人脈的方法
至於要怎麼搭訕教授
我們敬愛的馬總統已經教過我們了
下面幫大家複習:
「XXX教授您好,我是OOO,我老闆是ZZZ」
通常人家就會願意跟你聊天--只要你老闆是人家聽過的
ps. 由此可知我們的總統先生可能真的有拿到博士學位(咦

另外一個可以建立校外人脈的方式是: 與講者吃飯/討論
老師們常常會被邀請到其他學校給演講
學生常常會有機會跟講者吃飯或約個時間討論
強烈建議多去認識其他老師
除了可以深度認識別的老師外 有時候新的研究靈感就這樣來

Section 6 個人網頁:

個人網頁是許多人常常會忽略 但卻對找教職有不小影響力的東西
當search committee選出了那10-30個人給大家來挑的時候
他們就很可能會一個一個看個人網頁
(因為要收集額外的資訊)

如果你沒有個人網頁 那你可能在這邊會被扣分

個人網頁不要太花俏 重點是清楚+讓人印象深刻
CV無法表現的東西是圖片 還有根據研究領域分類你的文章
個人網頁弄得好 可以很清楚地讓人知道你有做哪些領域的文章

除了找工作用之外
平常維持一個好的個人網頁 對於增加學術能見度、被邀請去擔任reviewer都有加分
(我有幾個reviewer的經歷就是associate editor看了我的網頁後邀請我)

Section 7 影響拿到面試機會的因素:

目前有聽到一些說法會影響拿不拿得到面試

  • 同一間學校畢業的人 不會面試太多位
  • 名校畢業的有加分
  • 名老闆的學生有加分
  • Search Committee的人認識你 有加分

至於統計的文章發表
能有文章在最頂尖的三個期刊 (Annals of Statistics, JASA, JRSSB) 加分加很大
如果想拿到統計top10學校的面試 聽說這三個期刊最好要有2篇以上
ps. 統計審文章的速度很慢 最順利的情況 投出去到接受大概要1年 (刊出來又要另外半年) 看過不少文章拖了3-4年才被接受... 這可能也是統計發表數量低於其他領域的原因

統計界對於ML的發表看法很玄妙
ML的發表以conference proceeding為主 跟統計的期刊取向很不同
你如果統計的文章發表數很多 且都很優質
那ML的conference proceeding人家會認為是大加分
但如果你是以ML為主 統計為輔 聽說這不會是很受到重視的組合

Chapter 3 面試心得:

面試的過程會比大部分人想像還要輕鬆許多
別人會把你當做「教授」來看待(因為你可能是他們未來的同事) 所以會非常非常客氣
與其說是面試 不如說是跟新朋友聊天
只是最後人家會給你分數 根本相親(誤

大部分老師都會很友善的跟你討論
吃飯時也會很友善的跟你閒聊
甚至給演講問問題時也會友善地問
ps. 當然 一切都有例外XD

Section 1 面試流程:

面試通常是1天到2天
通常是前一天坐飛機抵達學校 結束後隔天搭飛機離開
前一天晚上有時候會跟系上幾位老師吃晚餐

面試流程大致是--
早餐與教授吃
在系上跟不同的教授單獨meeting 30分鐘換一個教授
中午跟教授/學生吃
下午繼續跟不同的教授meeting 30分鐘換人
你快累死時的4點左右 給你的Job talk (通常1小時)
給完job talk通常會休息30分鐘 然後跟教授們吃晚餐
隔天重複一樣的行程 只是不用給Job talk

Section 2 Job talk:

Job talk聽說是關鍵
給的好加分很多 給不好聽說有很高的機會就掰了

各校風格差異很大
大部分學校 講到一半大家就開始瘋狂發問 通常是有禮貌的問
但也有少數學校人家會用不禮貌的方式問
e.g. 你回答的同時他不斷搖頭, 你說你不清楚答案他就大笑
有時候會覺得這該不會是壓力測試 (無誤

Job talk被問問題時 偶爾回答你不知道是很正常的
(沒有人會完全知道所有事情)
但如果太常回答不知道會扣分

我也碰過非常好的學校 大家把問題留到最後面才問
所以時間比較好掌握

如果是1小時的演講 建議準備45分鐘的slides就夠了
一般都會晚5分鐘開始 然後會被問10分鐘
(不過我曾經被問了50分鐘過... 那次演講就講了1小時半)

聽說job talk別人問很多問題一般表示是好的 (因為有興趣)
如果你講的過程完全沒人問 通常不是一件好事

Section 3 Individual meeting:

單獨跟教授的meeting很重要
因為人家要看你好不好相處

不同教授會用很不一樣的方式過individual meeting

  • 模式1 標準型:
    跟你相互交流研究 跟你介紹系上的一些特質 最後讓你問問題

  • 模式2 讓你問型:
    一進來就說 “So do you have any question for me?" 不主動問你問題 都要你問他

  • 模式3 對你很有興趣型:
    我碰過幾個這樣的老師 對我的研究很有興趣 或對CMU的學生生活以及各種制度很有興趣 會很想了解你

  • 模式4 解說劇情型:
    你坐下來他就開始解說他們系的特色還有優缺點 不小心30分鐘就過去了 輕鬆過關

很多時候人家會讓你問問題 這時候「一定要問問題」
你沒有問題的話 人家會覺得你對他們沒什麼興趣
聽說沒問問題會被扣很多分 問很多問題反而會被加分

另外強烈建議面試前 要研究過下面幾個東西

  • 各教授的研究領域
  • 有哪些課你想要教
  • 各教授參與的計畫與研究團隊
  • 各教授的行政職
  • 系上有相關的研究中心

這些都是當別人讓你問問題時 很好找問題來問的
e.g. 我發現你們學校有一個data science center, 他們跟系上合作很多嗎?
e.g. 我知道您是master program的director 請問這邊master的狀況怎麼樣?

Section 4 吃飯:

吃飯我覺得是難度最高的地方 特別是晚餐
想想看你要跟3-4個外國人坐下來一起吃 大家以飛快的英文聊天
而你花了一整天跟不同的人meeting 還給了job talk 都快累死了
還要跟他們聊得很開心...

通常吃飯時 聊得不會是研究 (但有時還是會出現研究
常常會聊一些歡樂的事情 像是這個城市有什麼好玩的地方
平常假日去哪邊玩 寒假 暑假要去哪邊

旅遊是一個很好聊的主題
電影 美劇也都是很好聊的東西
ps. 冰與火之歌屢試不爽XDDD 還有絕命毒師
運動也是非常好開話題的

Section 5 Offer:

怎樣情況才能拿到offer其實很難講
有不少學校其實有著隱藏條件: 他們特別想找做某一塊的人
只是他們不一定明著公告出來

另外有人跟我說 其實學術界的politics還是有的
所以有些時候你看到研究超強的人 talk也給很好 最後卻神奇的沒拿到offer
有時就是因為一些political issue
(某個大老特別想收誰之類的)

Section 6 心理建設:

面試前常常會睡不著 我聽說很多人都睡不好
我第一場面試就完全沒睡
整天面試下來最後還給演講 我居然能夠活著 自己都有點佩服自己XD

碰到不好相處的老師也不要患得患失
我碰過從頭到尾不太笑的老師 臉上總寫著「你欠我一百萬」那種感覺
還碰過吃飯講話不太看你的老師..
就放輕鬆過去即可

收到拒絕信壓力不要太大 要認為是人家的損失
勝敗乃兵家常事 大俠請繼續加油

不過面試會碰到許多高規格的待遇
人生真的很難得有這樣的經歷
舉例來說
我曾跟4個老師吃晚餐 他們的citations加起來超過60萬
也曾經有美國科學院院士幫我開車門 中研院院士+美國科學院院士帶我校園導覽...
有時也頗歡樂的

致謝

特別感謝台大江金倉老師與陳宏老師引領我進入統計學的領域,還有我在CMU的advisors: Larry Wasserman, Christopher Genovese, Shirley Ho,感謝他們一路的指導與栽培。

因為需要感謝的人太多了,就感謝天罷。(Chen 1961)

 
12 months ago

市面上充斥著各種"成功者經驗分享"
獨家訪問XXX成功的故事 (或是OOO企業崛起的因素)
身為一個統計學家 不得不提醒大家要審慎理解這些故事

原因之一 正是我不久前寫的文章:
一群成功機會渺茫的人裡,總有幾個運氣好成功的。

因而這些"成功者"所分享的經驗
究竟具有參考價值 是非常存疑的
他們講的是真的有用的 還是純粹在解釋"隨機擾動"?

此外 許多成功者的經驗
都有倖存者偏差(survivorship bias)的可能
倖存者偏差就是
我們只會聽到成功者的經驗分享 不會聽到失敗的故事
舉例來說:
假設一般創業 100 家裡面有1家成功
然後1000個人用貸款去創業 結果只有1個人成功
但那個貸款成功的人會跳出來"分享他的成功經驗"
說這樣"背水一戰"會增加自己的鬥志與決心 因此能成功

實際上 貸款去創業可能根本沒有效果
但那成功經驗乍聽之下好像有點道理
所以 許許多多成功經驗到底有沒有道理 值得存疑

許多人成功的原因並不是他們真的有什麼秘訣
純粹只是他們"生而逢時" 所以成功
而他們所分享的經驗 很多時候笑笑看看就好

不過人生很多時候真的就是笑笑看看就好(菸

 
12 months ago

學統計後 人生變得豁達許多(?)
因為你知道許多事情 即使你做了再多努力 還是有可能會失敗
失敗原因並不是你不夠好 而是隨機使然

你也不會去羨慕一些沒什麼投資 卻一夜致富/成功的人
因為你知道只要這樣的人夠多
總是會出現幾個"成功"的人--也純粹是隨機性使然

但你卻不會因此失去鬥志
因為你知道努力增加的是"成功的機會"
隨著人生不斷走下去 對自己投資所增加的成功機會
會在每次關鍵事件時 被使用一次
長久下來 依舊有很高機會對自己人生有幫助的

「自己不努力,要成功的機會渺茫;但一群成功機會渺茫的人裡面,卻總有幾個因為運氣好而成功。」
要讓"自己"成功機會增加的方法
只有對自己投資 還有祈禱上輩子有積陰德

統計與機率論最美妙的地方在於
「智者千慮,難免一失;愚者千慮,偶有一得。」

學到極致後真的都笑看人生了(誤

 
about 1 year ago

我做理論統計幾年了 覺得統計理論其實主要可以分成三大類:

  1. 估計理論(estimation theory)
  2. 漸進理論(asymptotic theory)
  3. 最佳化理論(optimality theory, minimax theory)

統計問題基本設定往往是這樣
我們定義一個母體性質 像是母體平均數
然後我們建立一個估計式 例如樣本平均數

估計理論主要探討 "估計式(樣本平均)是否會收斂到母體性質(母體平均)?"
而這個收斂速率(跟樣本數n的關係)又是如何?(答案是"根號n"這個速率)

估計理論除了被用在探討"估計式"往母體性質的收斂性之外
有時也會被用來證明一套"誤差/風險估計"方法是有效的
舉例來說 常見的cross-validation就是一個用來估計"誤差/風險"的方法
而估計理論就會探討cross-validation是否會收斂到真實的誤差
(在某些問題上這答案是確定的 但在很多問題上還不清楚)

在預測的問題上 像是回歸分析(regression) 分類問題(classification)
一個固定方法的預測風險(prediction risk)就常常會是我們想要估計的對象
當你這方法固定了 那預測風險其實可以看成一個母體的特性
而如何建立一套估計方法 並且證明這套預測誤差估計是一致的 就是估計理論的問題

漸進理論則是探討 當我們適當的調整樣本平均與母體平均之間的距離後
是否能夠得到一個收斂的分配
正如同我們知道樣本平均收斂到母體平均的同時
他們之間的差值 調整後(乘上根號n)會呈現一個常態分配情況
即使原本的母體分配根本不是常態分配 也會出現這種情形
(因為中央極限定理)

漸進理論的特色是 通常我們有漸進理論 就能進行統計推論
像是建立信賴區間 進行假設檢定等等
因此一套新的統計方法 要能夠被用在科學推論上
通常都要做出漸進理論才可以

最佳化理論通常只出現在進階一點的統計問題上
他所探討的是 考慮"滿足某些條件的所有估計式"
收斂速率最快的估計式 只能達到怎樣的速率(速率=跟樣本數n的關係)
一般傳統參數化模型(parametric model)不會探討這個
因為通常答案都是"根號n" 所以MLE基本上已經達到最佳速率
但在非參數化的(nonparametric model)的情況下
最佳化速率常常都低於根號n--而各種估計式的速率也常常更慢
舉例來說
直方圖histogram在1維度的密度估計裏 速率只有n的-1/3次方 在L1誤差上
而相對的 kernel density estimator(KDE)在同樣問題還有誤差裏 收斂速率則是n的-2/5次方
並且可以證明KDE在某一大類型的密度函數上 這個速率是最快的

我覺得有趣的地方是 這三塊領域
做機器學習machine learning理論的人也會涉足其中的兩塊--估計理論與最佳化理論
這其實是很合理的現象
因為機器學習很重視預測的精准度
而預測精准度的估計 自然就是一個重要課題
最佳化理論也能告訴你說 某一套方法在某些問題上 預測誤差是最佳的
這都能夠用來論述一套新的演算法是好的 自然就會被重視

相對的 漸進理論通常是用在統計推論(科學推論)上
推論的問題通常不是機器學習專家主要重視的目標
自然會比較少被重視

 
over 1 year ago

Bootstrap可以說是這幾十年來(其實已經快四十年了)統計界的重大突破之一
因為這套方法非常簡單 而用途又很強大 所以不斷的被廣為使用
這篇文章簡單談談Bootstrap的基本概念與原理

p.s. 這篇下面有用LaTeX打的數學 有些瀏覽器+OS顯示會有問題 (win7+chrome/firefox有問題) 不過使用IE觀看反而沒有問題...

Bootstrap的主要用途是:
衡量估計式(統計量)的誤差大小 進而做統計推論(像是信賴區間 假設檢定)

估計式(Estimator)是由資料組成 用來估計母體的某個參數
因為資料是隨機的 估計式自然也是隨機的
理想的估計式 會隨著樣本數越來越大 收斂到母體我們想要了解的參數(這稱為一致性consistency)

現在給一個例子
我們有興趣的是--台灣博士生的"中位數"薪水
而假設我們從教育部得到一筆500名台灣博士生的薪水資料(隨機抽樣 只有部分博士生的資料)
我們可以根據這筆資料 用樣本的中位數 當做母體中位數的估計式
來估計實際台灣博士生的中位數薪水
而根據機率理論 這個樣本中位數 會收斂到母體中位數

但這個估計式有個問題:
雖然他會收斂 可是我們並不曉得誤差的大小
以及這個估計式的變異程度(因為資料是隨機 所以估計式也是隨機)
因為用這一筆資料 我們只能得到一個估計值
一個值本身是無法分析隨機的大小的

1. Bootstrap的基本原理

現在想像一個可以分析隨機程度的理想狀態:
假設我們有一台神奇的機器
這台機器 擁有所有台灣博士生的薪水資料
因此我們可以不斷從這台機器產生出一筆又一筆 500名隨機台灣博士生的薪水資料
每次的一筆500名博士生的資料 我們就能得到一次新的估計量
假設我們用這台機器1000次 我們就能得到1000個 中位數的估計量
利用這1000個中位數估計量 就能分析出這"樣本中位數"估計的變異大小

但在現實生活 我們沒有這台機器 我們只有一筆資料
所以無法用這個方式去分析出估計式的隨機大小

不過Bootstrap提供了一個機制 可以逼近這台機器的運作原理!
Bootstrap就是從給定的資料裡面 再次重複抽樣出一筆一樣大小的資料
(允許同樣的一個資料點被抽到很多次: sample with replacement)
每一次Bootstrap都會產生一筆新的資料 而我們可以用這筆新資料去得到一個新的估計式
不斷地使用Bootstrap 我們就可以得到好幾個估計值
利用這些Bootstrap估計值 我們就能計算估計式的變異大小

Bootstrap這和那檯理想機器的機制一樣:
那檯機器是從"母體"去重複抽樣 而我們現在是從"樣本"去重複抽樣
你可以想像當樣本數很大時 樣本數的分配與母體的分配 非常相近
因此從兩邊抽樣出來的誤差大小應該也會相近 因此Bootstrap是可行的
(當然 這並不總是對的 我們後面會談所謂的Bootstrap consistency)

2. 常見的Bootstrap用法

上面談的是Bootstrap的基本原理--和那台理想機器一樣
現在談Bootstrap常用來估計的兩種"隨機測度"(uncertainty measures)
這邊要用一點點數學

我們定義
為原本的估計式
而假設我們產生B個Bootstrap樣本
因此得到

B個新的估計式

第一種隨機測度是 估計式的"變異數"(Variance)
也就是我們想要算
Bootstrap的估計方法很簡單 就直接計算Bootstrap估計值的樣本變異數
也就是我們使用

作為的估計量
注意: 這個變異數估計"沒有使用到原本的估計量 "

第二種隨機測度是 估計式的"平均平方誤差"(MSE, Mean square error)
也就是我們想要計算
是我們想要估計的參數值
這時候我們對MSE的估計量就是

注意一個重大差別: 我們使用了原本的估計量 而不是Bootstrap的樣本平均數)

為什麼會有這個差異呢?
原因是 如果我們只在乎估計式的變異數(第一種情況)
這個變異量和實際上母體的參數值 並沒有關係
如果我們使用那檯理想機器 我們不需要計算實際母體的參數值
我們只需要一直產生出500名博士生的樣本去計算變異數

在第二種情況 我們想要分析的量(MSE) 需要使用到實際母體的參數
假如我們有那台機器 我們會需要用到
(1) 所有博士生的薪水 去計算真實的值
(2) 不斷產生出500名博士生的薪水 然後和(1)比較 去得到MSE的值
當我們使用Bootstrap 我們是把原始樣本當做母體
因此對應的參數 就是使用原本樣本的估計式
所以才會得到那樣的公式

Bootstrap不只可以估算隨機測度
更可以直接估算誤差的"分配函數"(cumulative distribution function)
像是這個量的隨機分配
就可以用一堆Bootstrap的的分配來逼近
當我們得到的大致分配
我們就能夠做信賴區間 或是檢定是否是某些值

3. Bootstrap收斂性

最後 我們用比較數學的角度去談Bootstrap的原理(以及其收斂性: Bootstrap consistency)
給定一個機率分配函數(CDF, cumulative distribution function) 我們稱為
這個函數F 完全描述了母體的隨機性質
也就是我們的資料()是根據 抽出n個獨立樣本
因此我們估計式的隨機性 完全被所決定
當然 我們想要估計的母體參數也是的一個特性
像是在博士生中位數的問題裡 就是的中位數
換句話說 前面所提到的理想機器 就是這個--只要知道 就能夠不斷抽樣出新的樣本

所以不論是的變異量 或是平均平方誤差MSE
都完全被所決定 (亦即: 只要知道 就知道這些量)
因此我們可以說 我們估計式的隨機測度 是一個的"函數"
也就是函數的函數 (functional: a function of function)
我們用來表示這個隨機測度 其中表示樣本數

仔細觀察Bootstrap的過程
就會發現Bootstrap其實就是不斷地從樣本分配函數 (empirical CDF)裡面去抽樣
可以回想一下 Bootstrap和理想機器之間的關係--一個是從原始樣本(可以看成)不斷抽樣 一個是從母體不斷抽樣

因此Bootstrap對隨機測度的估計量
在許多情況下可以寫成
所以Bootstrap對隨機測度的估計是一致的 必須滿足

符號表示機率收斂(convergence in probability)

如果今天我們要說Bootstrap可以用來逼近誤差的"分配函數"
那我們需要證明

其中的收斂速率
第一項是Bootstrap版本的"誤差分配函數"
第二項是真實版本的"誤差分配函數"

Bootstrap收斂性並不容易證明
一個比較常用的方法是先把要估計的母體參數寫成的函數
也就是
而我們的估計式選成
然後設法去證明在某些情況下是"可微分"的
(functional differentiation, 這個數學就比較複雜)

有興趣的讀者 我推薦下面這本書
Van der Vaart, Aad W. Asymptotic statistics. Vol. 3. Cambridge university press, 2000.
裡面第23章談了很多關於Bootstrap收斂性的證明
也可以看Larry Wasserman的Intermediate Statistics的課程內容
http://www.stat.cmu.edu/~larry/=stat705/
裡面第13章有談Bootstrap (每年的章節可能會換)

一般來講 Bootstrap在"誤差分配函數的收斂性"上
證明難度特別高
但如果要做統計推論 像是信賴區間等等
就必須要證明Bootstrap對誤差分配函數的收斂性

Bootstrap還有許多種版本 像是smooth bootstrap, wild bootstrap (multiplier bootstrap), residual bootstrap....
基本原理都是 從不同的估計式去抽樣
最原始的Bootstrap是從 empirical CDF
其他的方法像是smooth bootstrap就是從kernel density estimator去抽樣
可以想成 用不同方法去製造一個類似"理想機器"的抽樣機制

 
over 1 year ago

許多學統計出身的人 對現在Machine Learning(ML)崛起都感到驚訝
特別是在"預測" 這個工作上
Machine Learning的準確率高的讓統計學家望塵莫及

為什麼ML可以在預測上做得如此好呢?
特別是做classification-分類問題
統計在這塊領域上的預測很難跟ML相抗衡

然而 許多傳統統計的方法 像是kernel classifier
數學上都可以證明說 在某些情況下 這個classifier會收斂到Bayes classifier--亦即是最佳的分類方式
甚至這個收斂速率是最佳的(所謂的minimax rate)

但在實際資料上(特別是資訊/科技產業的資料)
ML裡的SVM(support vector machine), random forest, deep neural net等等
都幾乎輕易打敗傳統統計的方法
這究竟是什麼原因呢?

關鍵原因我認為有兩點
(1)統計常用的方法是最佳的情況 往往是資料彼此"獨立分配"之下才會發生
--這在科學資料上算合理假設 但在科技資料上 像是email的資料(給你email, 區分是否是垃圾郵件)
就不是一個合理的假設

(2)資料產生的機制 不一定能被機率模型漂亮的描述
--統計方法的最佳性 通常都建立在"機率模型"的數學架構之下
(不止統計 許多自然科學模型 都是建立在某些數學架構之下)
但實際世界不一定會符合機率模型 機率模型只是一個我們用來描述與分析世界的"模型"
當真實世界並不是機率模型 甚至差異很大時
機率世界裡最佳化的統計工具 就不能保證在真實問題上會是最佳的

在比較嚴謹收集的資料裡 機率機制與統計模型會是對資料有效的描述
但在其他的資料 像是資訊產業的資料
並不是透過嚴謹收集而來 因此傳統統計的方法 並不能保證是最佳的

相形之下 ML許多方法都著重在把問題看成一個最佳化的問題(optimization)
並且允許許多較為彈性的分析工具
即使不一定能數學上證明是比較好的方法
實際在處理問題上 彈性與最佳化 完全靠最佳化預測誤差 是很有可能達到比較好的預測成果
因此ML能在預測上表現的很好 其實並不算太奇怪

ML在預測上比統計好 其實是件好事
這表示我們世界比想像中的還要複雜得多
也表示還有很多問題值得我們去探討
像是一個存在於ML許多方法的隱憂:
難以找到一個好的數學模型去證明預測的優異性
--這點其實是統計學家可以和ML的人合作的地方--去證明某些方法在某些情況下是好的 或是最佳的
這不僅能夠讓我們可以從理論上的角度去理解為什麼ML的方法好
更能夠讓我們明白當今天某些方法出問題時 可能原因是哪些
而未來當我們要改善我們的方法時 我們也有一個比較明確的方向

ps.
統計整個領域的重心也不在預測上
統計主要是在建構一套完整的統計推論系統--亦即是如何透過資料 在允許誤差的情況下
推估出有興趣的參數 衡量估計量的誤差 建出信賴區間 並作假設檢定
這整套系統是準備給科學家們用在科學推論上的
而作為預測工具 一直都是統計比較次要的焦點