about 2 months ago

Statitical Functional是一個乍聽之前很艱深的東西
而的確 這個東西通常是在比較進階的課程(通常是研究所)才會開始出現

但其實 絕大多數的人在最基礎的統計課都不知不覺得碰到過這個玩意

我們先談數學上的Functional (中文好像翻譯為 泛函)
什麼是Functional?
簡單來說 就是函數的函數
也就是 他是一個"函數" 不過 你要輸入另一個函數進入這個functional
然後functional會給你一個數字
(一般的函數是 你輸入一個值(或一個向量) 然後他會回傳你一個數字)

那這個functional跟統計學有什麼關係?
下面是一個統計學裡面常見的圖--描述推論統計學的基本運作原理

左上角: 母體 population
左下角: 樣本 sample
右上角: 參數 parameter
右下角: 估計式/統計量 estimator/statistic

統計學的模型是:
我們觀測到的樣本 是從一個母體抽樣出來的
根據樣本 我們可以建立統計量

很多時候 我們有興趣的目標(parameter of interest)是母體的一些參數
因為我們不曉得母體與其參數 所以我們透過樣本建立估計式 用以推估我們有興趣的參數

一個常見的統計模型是
我們假設我們的樣本是一群IID隨機變數從一個 分配函數(distribution function)F(x)裡面產生
在這種情況 分配函數F(x)完整的描述了整個母體
也就是我們用這個分配函數F(x)作為描述母體的數學物件
不同的母體往往會給我們不同的分配函數
舉例來說 常態分配 N(0,1), N(2,1), N(1,4)都會對應到不同的分配函數F(x)

Note: 一個隨機變數的分配函數也稱為累積分配函數(cumulative distribution function) 如果X是一個隨機變數而F是他的分配函數 那麼 .

既然我們已經使用隨機變數來作為樣本的模型
並且使用分配函數作為母體的模型
那麼 我們該怎麼建立一個數學/統計模型給那些參數呢?

我們先思考看看常見的參數有哪些:
母體平均數 母體變異數 母體中位數...
這些數值 都是一些數字來描述某些母體的特徵
也就是 當今天我們換了一個母體 這些數字通常都會改變

用我們數學的模型來看
母體的數學模型是分配函數F
那麼 這些參數可以看成一個物件 這個物件的特徵是:
你丟進去一個分配函數F(母體) 然後它(物件)會回傳給你一個數字

這個特性 不就跟我們前面談的Functional一模一樣?

所以 這些參數 可以被看成一個Functional--
你把一個分配函數丟進去 這個Functional會吐一個數字給你

下面是幾個常見的Functional的定義(你可以驗證看看他們的性質):

  1. 平均值
    $$
    T_{\sf mean}(F) = \int x dF(x) = \mathbb{E}(X),
    $$
    是一個隨機變數擁有分配函數.

  2. 變異數
    $$
    T_{\sf Var}(F) = \int x^2 dF(x) - \left(\int x dF(x)\right)^2 = {\sf Var}(X).
    $$

  3. 中位數
    $$
    T_{\sf median}(F) = F^{-1}(0.5).
    $$

在上述式子裡面我們用了dF(x)
當這個分配函數來自於一個連續隨機變數時
$$
\int f(x)dF(x) = \int f(x)\frac{dF(x)}{dx}dx =\int f(x) p(x) dx,
$$
是這個連續變數的機率密度函數--所以上述定義回歸到我們常見的定義

當這個分配函數來自於一個離散隨機變數時
$$
\int f(x) dF(x) = \sum_{x} f(x) P(X=x)
$$
此外 離散隨機變數的分配函數反函數定義上要小心 我們一般定義
$$
F^{-1}(a) = \inf [ s: F(s)\geq a ]
$$

如果你學過Empirical distribution function (EDF, 我們一般寫作)
那麼 這套Statistical Functionals的分析方法還會讓你看到更多有趣的結果
像是許多常見的估計式 可以寫成--直接把這個EDF丟進去functional來得到估計式
樣本平均數就會滿足這樣的條件
這種方式建立的估計式會被稱為plug-in estimator

這種估計式有很多漂亮的性質 也經常與bootstrap的理論息息相關
剛好最近上課寫了些講義在談這塊 有興趣可以參考看看:

  1. CDF and EDF http://faculty.washington.edu/yenchic/17Sp_403/Lec1_EDF.pdf
  2. Bootstrap http://faculty.washington.edu/yenchic/17Sp_403/Lec5-bootstrap.pdf
  3. Introduction to Bootstrap Theory http://faculty.washington.edu/yenchic/17Sp_403/Lec9_theory.pdf

所以 雖然functional聽起來很高深
(實際上也算是進階的數學課題)
但其實學過初等統計/統計導論的大家早已默默地碰到過這個東西

當然 雖然我們這邊講的functional好像很簡單
如果要認真討論functional背後的性質以及數學
那可是有一大票不簡單的東西要去理解

 
3 months ago

今天來談一個美國統計系的一個特殊職位: Visiting Assistant Professor
(Visiting AP, 其他領域好像也有)

這個職位是什麼呢?
簡單來說就是一個 「暫時性」的助理教授
需要教學 需要做研究 需要做一些學術服務
但不能升等 也不能拿終身職 通常不具有系務會議投票權
通常這個職位一般是2-4年的職位
時間到就要走人

通常這個職位是給 想從事學術工作
有潛力但發表數不夠的博士畢業生(或博士後)

不少頂尖的統計系都有這個職位 (CMU, Berkeley, Cornell...)

這個職位的好處是--
因為競爭壓力比一般助理教授低 所以相對容易找到頂尖學校的缺
進而可以運用在頂尖學校的資源 來讓自己的發表量增加
並且累積教學經驗 甚至指導幾位學生 還能得到新的推薦信與人脈

這個職位的缺點是--
因為是暫時性的職位 幾年後還是要重回job market跟大家競爭

這個職位可以跟postdoc作一個對比
兩者都是博士畢業後 尚未拿到一般助理教授前的暫時性職位

postdoc的特點是
--你通常會有一個主要老闆 (通常)不用教學 所以你可以全神貫注在研究上

Visiting AP的特點是
--你通常是獨立研究者(沒老闆) 並且需要教學與服務

Visiting AP雖然雜事比較多 但在統計界
Visiting AP似乎大家認定的分數會比postdoc高
(即使你的發表量比同期postdoc少一點)

有興趣的人 可以把這個職位當成一個選擇

其實我覺得只要系上有足夠資金
這種職位對一個系也是很有幫助的
可以幫系上帶來新血 又可以有人幫忙教書
這些人離開後去其他學校也能增加自己系的人脈以及名聲
感覺是一個能對系上其他成員有所貢獻的職位

 
5 months ago

前些日子被人家問我英文出國後怎麼加強的
(4年多前出國的時候我托福口說僅19分 現在練到可以在美國上課教書...)
其實有不少小技巧可以跟大家分享
甚至在某些情況下
英文非母語反而讓你比起母語人士還有優勢

1--善用演講
對學生而言(特別是博士生) 去聽演講有非常多的好處
除了可以聽新研究外
還可以
(a) 學習演講技巧--特別是有想找學術工作的人 這點很重要
(b) 學習講英文方式

講者講得好(技巧好或語言表達好) 自然可以學習
就算人家講不好 還是可以學習--學習不要犯一樣的錯誤
(見不賢內自省的概念)

即使完全聽不懂演講內容 聽演講還是很有價值
因為學習演講技巧與英文口語這兩點非常有價值

特別是一些專有名詞要怎麼發音
還有一些字的重音要怎麼發
很多時候講者講過後你就會學到了

有趣的是 如果一個講者內容你聽不懂 演講技巧又不好 只剩下英文可以學
你反而比母語人士有優勢--
因為他們來這演講的1小時可能就浪費掉了
而你還可以學到一些講英文的方式XD

2--善用網路資源
大家都知道網路資源很好用

我個人博士班早期沒事就看美劇
開英文字幕 又可以學人家生活用語 又可以看劇情
聽到經典名言還可以倒轉回去再聽一遍

另外一個人在家吃飯時
我之前習慣一邊開TED的演講一邊吃
TED演講通常15-20分鐘 剛好飯吃完也聽完
還可以順便學演講技巧

最後還有一個很神奇的技巧 可能不適用很多人..
我個人雖然已經不玩LOL 但我沒事會看比賽的youtube影片
這邊特別要說
美國的主播口齒頗清晰 而且講得很慢!
非常適合練聽力XDD
(我現在看都開1.5倍速 不然我覺得他們講太慢XDD)

而且偶爾還可以看到台灣隊海虐別人 我狼威武 心情好~(咦

3--同溫層練勇氣
有時候直接跟美國人聊天壓力很大 因為不少美國人講話飛快..
所以我之前都會找其他國家朋友們一起聊天
當大家母語不是英文 大家講話速度就會比較慢
而且...有時會發現自己英文不是最破的 所以聊天起來不會壓力很大XDDD

躲同溫層雖可恥但有用

後記.
國際學生來美國讀研究所除了要跨越課程等學習的障礙外
我們還需要克服語言與文化的障礙

但有些老師是會注意到這點的
當你的語言能力有明顯進步
你老闆如果有注意到 通常會很開心 甚至可能再推薦信裡幫你多寫幾句好話
(因為這表示你的"適應力" 以及"學習力"很好--這有時可能比解題能力還重要)

我老闆某次問我要不要代替他去某研討會給演講
我說我怕我英文不好
我老闆就說
"哦~ 我完全不擔心 從你博一看到現在 你英文能力進步的讓人驚艷(amazing) 你可能自己沒意識到 但我們都看得到你的進步"

聽到老闆這樣說都快哭了T____T

如果是美國人可能就拿不到這個稱讚了
國際學生還是有點優勢的

 
10 months ago

許多人寄信給教授常常都不會收到回信
其實有些小提示可以提供大家參考
(很多人可能都知道了 但我還是收到不少信沒有使用這些提示)

提示1

如果你寄信給自己學校的教授
請記得使用自己學校的email
不要使用免費的email(如gmail)

一般人是拿不到學校的email 只要你用學校的信箱寄
教授至少知道你是自己學校的學生 通常比較願意回信

gmail會讓人家以為你是外面的人

提示2

如果你在某公司工作 或是是學生但要寄信給外校教授
記得使用你們單位的email而不是gmail
(e.g. 台大學生請使用@ntu.edu.tw的信箱 不要用@gmail.com)

這與提示1一樣的道理 路人甲拿不到你們單位的email
使用自己單位的email會差很多

提示3

善用cc(寄件副本)

如果你要寄信給外校教授談學術的事情 (e.g. 發現使用他們軟體有問題)
而你原本單位已經有指導教授
建議先知會原本的指導教授 寄信給外校教授時副本給自己老闆

如果你要套磁(中國用語 表示申請學校之前先跟教授寄信聯絡)
我強烈建議這樣做(副本給自己老闆/推薦你的老師) 通常會差很多

另外你如果是經由某人推薦而寫信給教授
記得要副本給你原本的朋友(而且最好是你朋友公司單位的信相)
這樣人家才會知道你講的是實話
(不然人人都可以宣稱自己是歐巴馬的好朋友)

通常人家看到認識的名字被副本 就知道這不是路人寄來的信
回信意願會提高不少

提示4

第一次寄信記得開頭先講你是誰 來自哪個單位 為什麼要寄信給對方
或著是誰推薦你寄信的

這是很基本的電子郵件禮儀
不過當了教授才很意外發現許多人都沒有遵守...

最後 教授一天收到的信件數量遠超乎你想像
所以不回信或很晚回信很正常

通常教授們大腦會內建filter
重要的信件/來自熟人的信件才會優先回
其他信件可能會晚回...或不小心忘記回

 
11 months ago

辛普森悖論是統計裡面的經典悖論
前些日子在一場研討會剛好孟曉犁教授提到這個悖論
並且這悖論跟現在很紅的大數據 資料科學有關係
因此我覺得值得在這邊跟大家分享一下

我們從一個真實的案例來談起
下面這是一個關於腎結石治療的統計圖表


簡單來說 醫生有兩種治療方法: A方法 與 B方法
而這兩套方法在腎結石的大小上 各自有不同的成功率
當結石是小顆的時候 A方法成功率是81/87 = 93% B方法的成功率是234/270 = 87%
當結石是大顆的時候 A方法成功率是192/263 = 73% B方法的成功率是55/80 = 69%
所以 不管在什麼情況下 A方法的成功率都比B方法還要高

但假設今天我們不知道結石的大小 單看兩套方法的治療成功率 則會得到
A方法成功率是 273/350 = 78%
B方法成功率是 289/350 = 83%
所以B方法比A方法成功率還高!

所以我們得到一個弔詭的事情---
假設今天我們什麼都不知道 那理性的選擇應該是採用B方法
但假設今天我們知道了結石的大小 那理性的選擇 "不管結石大顆小顆 都應該選A方法"

這樣子的一個弔詭的事情 就是所謂的辛普森悖論

為什麼我們會得到這樣子奇怪的事情?
你如果仔細看那個圖表 會發現一個關鍵--A和B方法在結石大小顆的兩種不同情況下 被使用的次數相當不同
大部分的A方法 都是被用在大顆的結石上
而大部分的B方法 都是使用於小顆的結石情況

而小顆的結石不管哪套方法 治療成功率都很高
因此這樣不相等的樣本數 導致當我們忽略結石大小時 B方法治療成功率被拉高

也就是 當我們把一套比較差的方法(方法B)用在比較簡單的問題上很多次時 將可能導致這套方法看起來變得比較有效 (但實際上並沒有)

其實你仔細觀察 接受A/B治療的情況 跟結石大小有非常重的相關性
這個相關性即是一個造成辛普森悖論的關鍵要素

辛普森悖論在科學推論與分析上非常重要 假設你的實驗設計不完善
則你可能推論出完全相反的結果
特別是當你的資料並不是經由嚴謹的科學設計去取得的情況

辛普森悖論對於資料科學家而言特別重要
因為許多所謂的大數據資料 並不是經由一套嚴謹的科學設計程序所取得的
很多資料是所謂的使用者自行回報的數據
這種類型的資料彼此之間往往有很大的相關性
因此做出來的推論很有可能產生辛普森悖論
所以在分析上要特別的小心

wikipedia上有許多相關的資料與案例值得閱讀:
https://en.wikipedia.org/wiki/Simpson%27s_paradox

 
over 1 year ago

Background:

2007-2011 B.S in Physics at NTU
2011-2012 當兵T____T
2012-2016 Ph.D in Statistics at Carnegie Mellon University
Advisors (有3位):

  • Larry Wasserman (Statistics/Machine Learning)
  • Christopher Genovese (Statistics)
  • Shirley Ho (Physics/Astronomy)

Research Areas:

  • Statistics: nonparametric statistics, empirical processes, topological data analysis, applied statistics
  • Machine Learning: cluster analysis, statistical learning theory
  • Cosmology: large-scale structure, astrostatistics

Publications:

  • 3*統計期刊 (2*Annals of Statistics, 1*Electronic Journal of Statistics)
  • 1*Machine Learning conference (1*NIPS)
  • 3*天文期刊 (2*MNRAS, 1*ApJS)
  • 其他8篇preprint/under review
  • ps. 統計的發表量都很少 許多頂尖學校只要1-3篇就可以畢業

Interviews:

投25家 拿到13家on-site面試 都是Assistant Professor (tenure-track) 最後拿到4個offers
統計系:
Stanford, University of Washington, University of Michigan, University of Pennsylvania, Columbia, Cornell, UC-Davis, Ohio State, Rice, UIUC, UT-Austin
商學院:
University of Chicago-Booth, USC-Marshall

Final decision:

University of Washington
這間是我最想去的學校 研究領域全面 學術聲望好(Top 5統計系) 地點好 其他教授們也好相處 地靈人傑啊~


以下心得不一定適用所有場合
我的情況是

  • 統計領域
  • 研究型大學
  • Assistant Professor (tenure-track)

Chapter 1 綜合心得:

Section 1 學術:

我覺得走學術最重要的是個性
要對學術非常有熱情
而且要有奇妙的洞察能力
常常能夠從新的角度看原本的問題
研究跟 寫作業 考試 是頗不一樣的活動

我很喜歡做研究 基本上我不會算我做研究的時間
因為我沒別的事情時就是在做研究
所以我才會找了3個advisors (他們都是好朋友)
讓生活可以充斥各種有趣的研究

Advisors多的好處就是能有許多research meetings
舉例來說 上學期我有
2*individual meetings
5*project meetings
5*group meetings
一共12個meetings 然後我就過得特別開心
ps. 這學期我只有8個meetings 所以我就有一點憂鬱 嗚嗚...

另外老闆和你研究的氣場合不合很重要
我曾有一篇文章是一個週末和我老闆L寫出來的
(兩個無聊男子(?)的週末休閒活動)

做研究 解題技巧不能太差 但並不需要很頂尖
重要的是如何不斷的從不同角度看原本的問題
還有看出不同問題之間的關聯性

Section 2 統計:

統計是個很奇妙的領域
需要一定基礎的數學 (高等微積分、數學系線性代數是PhD課程的基礎 老師會預設你知道)
建議要有實分析的基礎 懂一點基本的泛函分析會讓生活比較愜意
但並不需要太深入的抽象數學

統計學與科學的關係非常深遠
統計學主要就是建構整套科學資料分析與推論的基礎
所以從科學領域 不管是自然科學或社會科學 轉入統計學往往會有額外的優勢
(前提是你的數學程度要足夠)

而這幾年統計整個領域也在劇烈轉變中
因為受到data science, machine learning(ML)的影響
基於統計與科學還有ML的親密關係
你在科學/ML領域的發表是有額外加分的
(前提是: 你在統計本身領域要有足夠好的發表)

Section 3 教職:

統計領域找教職不一定要做postdoc 但主要關鍵還是你的推薦信與發表數
一般大概50%的人會做postdoc 50%的人會從博士班直攻教職
做postdoc的好處是你可以收集到比較多推薦信 也可以累積比較多的發表數

找教職競爭其實很劇烈
除了有PhD, postdoc之外
還會有已經在當教授的人 因為一些原因跑回來找教職
或著visiting/clinical assistant professor要轉tenure-track position跑過來申請

ps. visiting/clinical assistant professor: 通常是2-4年 固定年限的助理教授缺 不能申請終身職
所以他們最終如果要待在學術界 還是會跑來找tenure-track的缺

其實PhD雖然發表量往往會輸人家
但優點是如果你博士班就能有很好的成果 通常人家會認為你的潛力比較大
這也是提早畢業的優勢
像我博士班只讀了4年 只要展現出4年的發表不輸給其他競爭者 自然就會被認定比別人有潛力

其實後來覺得找教職應該讀久一點博士班
今天早上醒來突然發現自己不久之後要當教授了 覺得可怕(驚

Chapter 2 申請前準備心得:

Section 1 過程:

8-12月: 投遞申請資料

  • 有些學校11月就截止 要注意截止日期

通常需要準備:

  • CV
  • 3-5封推薦信
  • research statement
  • teaching statement
  • 0-3篇代表作

裡面最關鍵的是推薦信還有CV
但這些都是需要長時間才能培養好的

許多老師說research/teaching statement基本上不太有人看
但當我們的last name不是西方國家的名字時
你至少要確保這兩者內容的英文都是正確且流利的
(有老師跟我說這點很重要)

而學校方面 招生的運作大致是如下 (聽說)
由search committee主要負責
從上百封的申請者裡 選10-30個出來
然後讓系上大家來看 最後開會決定要邀請誰來on-site interview
一個位置通常會邀請4-8個人來面試

Section 2 CV:

CV來講 可以分成三個面向: 研究 教學 服務

重要性聽說是
研究>>教學>>>>服務

  • 研究
    研究是最重要的
    很強的研究 就算完全沒有教學與服務的經驗 也是有機會找到很好的工作
    而研究面向裡
    最有地位的就是文章發表
    在統計界 數量不是最要緊的 重點是文章發表的期刊還有內容深度
    另外發表領域的”廣度"也會有加分效果
    除了文章發表外 presentation也會有加分
    特別是到invited Talk等級的presentation 加分不少
    (但學生很難拿到invited Talk 通常靠老闆推薦才能拿到)
    至於其他研究經驗(當RA之類的) 聽說效果不大

  • 教學
    Instructor >>> TA >>>Grader
    能有機會擔任Instructor對於教學加分很大
    TA也是會少量加分的經歷
    我曾聽說過 如果從頭到尾沒有任何教學經驗 可能會扣一點分

  • 服務
    擔任期刊reviewer會加一些分 特別是頂尖期刊 加分會更多
    (這通常也是要靠老闆們推薦你當reviewer才拿得到)
    協辦一些活動也會微量加一些分

  • 其他
    Honor and award聽說沒有什麼用.. 但有總比沒有好
    例外的是聽說teaching award (excellent teaching)之類的反而加分加很大
    (研究的獎似乎比不過教學的獎)

至於什麼東西可以放進CV? 有一個基本原則
只要跟學術有關 並且當人家要你解釋時你可以說明該經驗 就可以放進去
(如果你只寫過python幾次 就不要說你會用python 不然人家一問你可能就倒了)

Section 3 推薦信:

推薦信的影響力是最大的
我看過很多頂尖的申請者 文章發表沒有特別突出 但一樣能拿到很多面試
關鍵就是他們有極為強大的推薦信

聽說推薦信有三個要素
1: 推薦人要很有名
2: 推薦人跟你要很熟
3: 推薦人要幫你說好話
而且聽說這三個要素是相乘--也就是只要少一個你就慘了

根據我老闆的說法 推薦信最好要找跟你有「合寫過」文章的老師比較好
所以平常能多跟不同老師合作就要多合作

Section 4 老闆:

老闆很重要 老闆很重要 老闆很重要 (因為很重要所以要講三次)

最佳狀態是找 好老闆+神老闆+名老闆

除了指導你之外 老闆可以提供你非常多的資源
舉例來說 invited talk, reviewer這兩個經驗幾乎都是老闆推薦你才拿得到
老闆能夠幫你找很多合作者 (然後他們就能幫你寫推薦信)
老闆還能送你去當visiting scholar, 在演講時把credits給你, 朋友來訪時/去外校訪問時大力推薦你...

我老闆們就對我很好 我的7場invited talk裡 4場是他們推薦我去的
(另外3場是台大老師邀請我回去給演講)
而且我目前所有的發表裡 一共有16個不同的合作者
都是三位老闆們幫我四處找來的
他們被邀請去給演講 也都會大力推薦我 讓我感動的痛哭流涕啊T___T

Section 5 人脈:

人脈很重要 你的人脈和你老闆的人脈都很重要
決定你拿不拿得到面試的隱藏要素之一就是人脈
單靠人脈拿不到面試 但當一群實力強的人在競爭面試機會時
人脈可能就會是最後一個關鍵

人脈可以分成 校內人脈與校外人脈
校內人脈就是你跟系上「非合作者」的教授們的關係
別以為人家跟你沒合作 就不會有影響力
教授們常常會跟他們的它校教授朋友們聊天
大家都喜歡你 你的名聲其實是會傳到其他學校的
我們系上還有老師特別跟他朋友推薦我 (後來我有拿到他朋友學校的面試)
即使這位教授我完全沒合作過 也沒修過他的課

校外人脈的重要性就不用說了
參加研討會是很好建立校外人脈的方法
至於要怎麼搭訕教授
我們敬愛的馬總統已經教過我們了
下面幫大家複習:
「XXX教授您好,我是OOO,我老闆是ZZZ」
通常人家就會願意跟你聊天--只要你老闆是人家聽過的
ps. 由此可知我們的總統先生可能真的有拿到博士學位(咦

另外一個可以建立校外人脈的方式是: 與講者吃飯/討論
老師們常常會被邀請到其他學校給演講
學生常常會有機會跟講者吃飯或約個時間討論
強烈建議多去認識其他老師
除了可以深度認識別的老師外 有時候新的研究靈感就這樣來

Section 6 個人網頁:

個人網頁是許多人常常會忽略 但卻對找教職有不小影響力的東西
當search committee選出了那10-30個人給大家來挑的時候
他們就很可能會一個一個看個人網頁
(因為要收集額外的資訊)

如果你沒有個人網頁 那你可能在這邊會被扣分

個人網頁不要太花俏 重點是清楚+讓人印象深刻
CV無法表現的東西是圖片 還有根據研究領域分類你的文章
個人網頁弄得好 可以很清楚地讓人知道你有做哪些領域的文章

除了找工作用之外
平常維持一個好的個人網頁 對於增加學術能見度、被邀請去擔任reviewer都有加分
(我有幾個reviewer的經歷就是associate editor看了我的網頁後邀請我)

Section 7 影響拿到面試機會的因素:

目前有聽到一些說法會影響拿不拿得到面試

  • 同一間學校畢業的人 不會面試太多位
  • 名校畢業的有加分
  • 名老闆的學生有加分
  • Search Committee的人認識你 有加分

至於統計的文章發表
能有文章在最頂尖的三個期刊 (Annals of Statistics, JASA, JRSSB) 加分加很大
如果想拿到統計top10學校的面試 聽說這三個期刊最好要有2篇以上
ps. 統計審文章的速度很慢 最順利的情況 投出去到接受大概要1年 (刊出來又要另外半年) 看過不少文章拖了3-4年才被接受... 這可能也是統計發表數量低於其他領域的原因

統計界對於ML的發表看法很玄妙
ML的發表以conference proceeding為主 跟統計的期刊取向很不同
你如果統計的文章發表數很多 且都很優質
那ML的conference proceeding人家會認為是大加分
但如果你是以ML為主 統計為輔 聽說這不會是很受到重視的組合

Chapter 3 面試心得:

面試的過程會比大部分人想像還要輕鬆許多
別人會把你當做「教授」來看待(因為你可能是他們未來的同事) 所以會非常非常客氣
與其說是面試 不如說是跟新朋友聊天
只是最後人家會給你分數 根本相親(誤

大部分老師都會很友善的跟你討論
吃飯時也會很友善的跟你閒聊
甚至給演講問問題時也會友善地問
ps. 當然 一切都有例外XD

Section 1 面試流程:

面試通常是1天到2天
通常是前一天坐飛機抵達學校 結束後隔天搭飛機離開
前一天晚上有時候會跟系上幾位老師吃晚餐

面試流程大致是--
早餐與教授吃
在系上跟不同的教授單獨meeting 30分鐘換一個教授
中午跟教授/學生吃
下午繼續跟不同的教授meeting 30分鐘換人
你快累死時的4點左右 給你的Job talk (通常1小時)
給完job talk通常會休息30分鐘 然後跟教授們吃晚餐
隔天重複一樣的行程 只是不用給Job talk

Section 2 Job talk:

Job talk聽說是關鍵
給的好加分很多 給不好聽說有很高的機會就掰了

各校風格差異很大
大部分學校 講到一半大家就開始瘋狂發問 通常是有禮貌的問
但也有少數學校人家會用不禮貌的方式問
e.g. 你回答的同時他不斷搖頭, 你說你不清楚答案他就大笑
有時候會覺得這該不會是壓力測試 (無誤

Job talk被問問題時 偶爾回答你不知道是很正常的
(沒有人會完全知道所有事情)
但如果太常回答不知道會扣分

我也碰過非常好的學校 大家把問題留到最後面才問
所以時間比較好掌握

如果是1小時的演講 建議準備45分鐘的slides就夠了
一般都會晚5分鐘開始 然後會被問10分鐘
(不過我曾經被問了50分鐘過... 那次演講就講了1小時半)

聽說job talk別人問很多問題一般表示是好的 (因為有興趣)
如果你講的過程完全沒人問 通常不是一件好事

Section 3 Individual meeting:

單獨跟教授的meeting很重要
因為人家要看你好不好相處

不同教授會用很不一樣的方式過individual meeting

  • 模式1 標準型:
    跟你相互交流研究 跟你介紹系上的一些特質 最後讓你問問題

  • 模式2 讓你問型:
    一進來就說 “So do you have any question for me?" 不主動問你問題 都要你問他

  • 模式3 對你很有興趣型:
    我碰過幾個這樣的老師 對我的研究很有興趣 或對CMU的學生生活以及各種制度很有興趣 會很想了解你

  • 模式4 解說劇情型:
    你坐下來他就開始解說他們系的特色還有優缺點 不小心30分鐘就過去了 輕鬆過關

很多時候人家會讓你問問題 這時候「一定要問問題」
你沒有問題的話 人家會覺得你對他們沒什麼興趣
聽說沒問問題會被扣很多分 問很多問題反而會被加分

另外強烈建議面試前 要研究過下面幾個東西

  • 各教授的研究領域
  • 有哪些課你想要教
  • 各教授參與的計畫與研究團隊
  • 各教授的行政職
  • 系上有相關的研究中心

這些都是當別人讓你問問題時 很好找問題來問的
e.g. 我發現你們學校有一個data science center, 他們跟系上合作很多嗎?
e.g. 我知道您是master program的director 請問這邊master的狀況怎麼樣?

Section 4 吃飯:

吃飯我覺得是難度最高的地方 特別是晚餐
想想看你要跟3-4個外國人坐下來一起吃 大家以飛快的英文聊天
而你花了一整天跟不同的人meeting 還給了job talk 都快累死了
還要跟他們聊得很開心...

通常吃飯時 聊得不會是研究 (但有時還是會出現研究
常常會聊一些歡樂的事情 像是這個城市有什麼好玩的地方
平常假日去哪邊玩 寒假 暑假要去哪邊

旅遊是一個很好聊的主題
電影 美劇也都是很好聊的東西
ps. 冰與火之歌屢試不爽XDDD 還有絕命毒師
運動也是非常好開話題的

Section 5 Offer:

怎樣情況才能拿到offer其實很難講
有不少學校其實有著隱藏條件: 他們特別想找做某一塊的人
只是他們不一定明著公告出來

另外有人跟我說 其實學術界的politics還是有的
所以有些時候你看到研究超強的人 talk也給很好 最後卻神奇的沒拿到offer
有時就是因為一些political issue
(某個大老特別想收誰之類的)

Section 6 心理建設:

面試前常常會睡不著 我聽說很多人都睡不好
我第一場面試就完全沒睡
整天面試下來最後還給演講 我居然能夠活著 自己都有點佩服自己XD

碰到不好相處的老師也不要患得患失
我碰過從頭到尾不太笑的老師 臉上總寫著「你欠我一百萬」那種感覺
還碰過吃飯講話不太看你的老師..
就放輕鬆過去即可

收到拒絕信壓力不要太大 要認為是人家的損失
勝敗乃兵家常事 大俠請繼續加油

不過面試會碰到許多高規格的待遇
人生真的很難得有這樣的經歷
舉例來說
我曾跟4個老師吃晚餐 他們的citations加起來超過60萬
也曾經有美國科學院院士幫我開車門 中研院院士+美國科學院院士帶我校園導覽...
有時也頗歡樂的

致謝

特別感謝台大江金倉老師與陳宏老師引領我進入統計學的領域,還有我在CMU的advisors: Larry Wasserman, Christopher Genovese, Shirley Ho,感謝他們一路的指導與栽培。

因為需要感謝的人太多了,就感謝天罷。(Chen 1961)

 
almost 2 years ago

市面上充斥著各種"成功者經驗分享"
獨家訪問XXX成功的故事 (或是OOO企業崛起的因素)
身為一個統計學家 不得不提醒大家要審慎理解這些故事

原因之一 正是我不久前寫的文章:
一群成功機會渺茫的人裡,總有幾個運氣好成功的。

因而這些"成功者"所分享的經驗
究竟具有參考價值 是非常存疑的
他們講的是真的有用的 還是純粹在解釋"隨機擾動"?

此外 許多成功者的經驗
都有倖存者偏差(survivorship bias)的可能
倖存者偏差就是
我們只會聽到成功者的經驗分享 不會聽到失敗的故事
舉例來說:
假設一般創業 100 家裡面有1家成功
然後1000個人用貸款去創業 結果只有1個人成功
但那個貸款成功的人會跳出來"分享他的成功經驗"
說這樣"背水一戰"會增加自己的鬥志與決心 因此能成功

實際上 貸款去創業可能根本沒有效果
但那成功經驗乍聽之下好像有點道理
所以 許許多多成功經驗到底有沒有道理 值得存疑

許多人成功的原因並不是他們真的有什麼秘訣
純粹只是他們"生而逢時" 所以成功
而他們所分享的經驗 很多時候笑笑看看就好

不過人生很多時候真的就是笑笑看看就好(菸

 
almost 2 years ago

學統計後 人生變得豁達許多(?)
因為你知道許多事情 即使你做了再多努力 還是有可能會失敗
失敗原因並不是你不夠好 而是隨機使然

你也不會去羨慕一些沒什麼投資 卻一夜致富/成功的人
因為你知道只要這樣的人夠多
總是會出現幾個"成功"的人--也純粹是隨機性使然

但你卻不會因此失去鬥志
因為你知道努力增加的是"成功的機會"
隨著人生不斷走下去 對自己投資所增加的成功機會
會在每次關鍵事件時 被使用一次
長久下來 依舊有很高機會對自己人生有幫助的

「自己不努力,要成功的機會渺茫;但一群成功機會渺茫的人裡面,卻總有幾個因為運氣好而成功。」
要讓"自己"成功機會增加的方法
只有對自己投資 還有祈禱上輩子有積陰德

統計與機率論最美妙的地方在於
「智者千慮,難免一失;愚者千慮,偶有一得。」

學到極致後真的都笑看人生了(誤

 
almost 2 years ago

這次我們來談談隨機變數的獨立性(independence)
假設今天有兩個隨機變數: 變數X 還有變數Y

當我們說他們是獨立的隨機變數時
就表示: 不管X跑出怎樣的結果 都不會影響Y的機率分配 (反之亦然)

一個類似獨立性的特質叫做 "相關性"(correlation)
相關性可以看成一種衡量兩個變數"線性關係"的量
X和Y獨立 => X和Y之間的相關性=0
但千萬要記得: 相關性=0並不表示變數獨立
下面是一個經典案例: 假設X 有三種可能:{-1, 0, 1} 每種可能的機會都是1/3
我們令Y = X^2
很明顯的Y和X並不獨立(基本上給定X的值 Y的值就完全被決定)
然則X和Y之間的correlation是0

雖然相關性僅僅是獨立性的最低階版本
但在常態分配時 相關性和獨立性卻是等價的
也就是 假如今天X,Y都是常態分配 那麼
X,Y獨立 <=> X,Y相關性=0

我曾聽人說過 機率論之所以可以從測度論外延伸出自己的領域
關鍵就是獨立性這個特質太強大 使得許多變數被同時使用時 會出現concentration of measure的效應
(舉例來說: 獨立樣本的樣本平均數會機率收斂到母體平均數 也就是probability measure會集中在某個值)

接下來我們談一點進階的問題: 獨立性檢定(Test for independence)
這是當我們同時收集到兩個變數(X,Y)時
而我們收集了n組這樣的兩個變數 我們想要檢定X和Y之間的分配是否為獨立的

當今天兩個變數都是離散時
常見的方法是
Pearson's chi-squared test for independence
https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test#Test_of_independence
背後原理是利用獨立分配的情況VS實際觀測情況的差異來作為檢定
(其實所有的方法幾乎都是靠這招)

當今天變數是連續變數時 問題就比較複雜一些
但如果我們假設X,Y是常態分配
那問題就簡化成"檢定correlation=0"
這是因為常態分配時 獨立=零相關性

如果不是常態分配 雖然問題很複雜
但其實已經有很多方法可以來檢定
先介紹最經典的Hoeffding's Test
Hoeffding, Wassily. "A non-parametric test of independence." The Annals of Mathematical Statistics (1948): 546-557.
http://projecteuclid.org/euclid.aoms/1177730150
簡單來說 就是利用empirical cumulative distribution來檢定
一樣是: 獨立情況的分配VS實際觀測的情況

除了上述方法外 也可以利用密度估計來檢定
利用兩變數的各自密度估計相乘 對上 同時對兩變數的密度估計
Rosenblatt在1975就提出這套方法 使用kernel density estimate來估計
Rosenblatt, Murray. "A quadratic measure of deviation of two-dimensional density estimates and a test of independence." The Annals of Statistics (1975): 1-14.
https://projecteuclid.org/euclid.aos/1176342996

這幾年有兩套新方法被提出來進行獨立性檢定(ps. 他們同時也都有two-sample test, 檢定兩變數分配是否一樣)
第一個路線是distance covariance (distance correlation)方法
或俗稱的energy test
詳情可以看下面
https://en.wikipedia.org/wiki/Distance_correlation
他們對應的獨立性檢定則可以看
Székely, Gábor J., Maria L. Rizzo, and Nail K. Bakirov. "Measuring and testing dependence by correlation of distances." The Annals of Statistics 35, no. 6 (2007): 2769-2794.
http://projecteuclid.org/euclid.aos/1201012979

另一個路線則是運用所謂的RKHS (Reproducing Kernel Hilbert Space)
來進行獨立性檢定
詳情可以參閱
Gretton, Arthur, and László Györfi. "Consistent nonparametric tests of independence." The Journal of Machine Learning Research 11 (2010): 1391-1423.
http://www.jmlr.org/papers/volume11/gretton10a/gretton10a.pdf

獨立性檢定一直都是統計裡面重要的領域
上面談的文獻通常是專注在理論與方法發展上
但實際上怎樣的方法具有較好的power 依舊是根據資料而有所差異
當今天有一組資料具有額外資訊時
如何運用額外資訊獲得檢定的power 仍舊是當今研究的課題

至於機率論上討論相依性(dependence)
則有所謂的alpha-mixing, beta-mixing等等的模式
詳情可以參考
https://en.wikipedia.org/wiki/Mixing_(mathematics)
這在時間序列(Time series)的問題上特別常被使用到

 
about 2 years ago

Clustering可以說是三大常見統計問題之一
(另外兩個是regression還有classification)
簡單來說 clustering就是當給定一群資料後
靠資料點之間的相似性 把資料點分成幾個群


(上圖是mean shift clustering)

而進行clustering的方法也有好幾種
常見的有 k-means clustering, spectral clustering, mean shift clustering, hierachical clustering ...等等

如果你讀統計文獻 談到clustering總會覺得跟一般統計問題不太一樣
因為一般統計文獻很重視"統計收斂性"
也就是當樣本數越來越大時 會有怎樣的表現
但clustering比較少文獻探討統計收斂性

這個關鍵在於
"描述clustering的收斂性並不容易"

一般來說clustering就是把資料點分群
但收斂性探討的是當資料點的數量n趨近於無限大時的表現性
在這情況下clustering會變成要把"無限多個點分群"
有限的點很好探討分群
但無限多個點 要怎麼分群 並不是一個好操作的事情

這篇我簡單談一下三個常見的clustering方法的收斂性:
k-means clustering, spectral clustering, 以及mean shift clustering
有趣的是 這三個方法用了不同的方式來刻劃收斂性

1. k-means clustering--

Pollard, David. "Strong consistency of $ k $-means clustering." The Annals of Statistics 9, no. 1 (1981): 135-140.

k-means的特性是 clustering的成果完全由那k個中心所決定
所以只要能夠證明根據樣本的k個中心 會收斂到 根據"真實分配函數"定義出來的k個中心
就能夠描述收斂性 而這正是Pollard[1981]裡面談的方法

2. Spectral clustering--

Von Luxburg, Ulrike, Mikhail Belkin, and Olivier Bousquet. "Consistency of spectral clustering." The Annals of Statistics (2008): 555-586.

Spectral clustering利用的是資料點與資料點之間的距離矩陣
(這個矩陣的[i,j]元素即是資料點i與資料點j的距離)
適當的重整劃過後 進行eigen-decomposition然後用最大的幾個eigenvectors來進行k-means clustering
(最大的幾個eigenvectors: 大小是根據對應的eigenvalues)

Von Luxburg et. al.[2008]證明收斂性的方式很優雅
因為整個關鍵是前面幾個eigenvectors
所以他們把問題從linear operator的角度出發
(類似把距離矩陣看成一個linear operator)
而linear operator本身就俱有eigenvectors
因此前面幾個eigenvectors可以看成一個基於"樣本"所產生的linear operator
接著定義一個根據"真實資料分配(母體)"所建構出來的linear operator
最後只要證明樣本的operator的前面幾個eigenvectors會收斂到母體的對應量即可

3. Mean shift clustering--

Chen, Yen-Chi, Christopher R. Genovese, and Larry Wasserman. "Statistical Inference using the Morse-Smale Complex." arXiv preprint arXiv:1506.08826 (2015).

Mean shift clustering的收斂性是最近才剛剛被證出來
Mean sfhit的特色是: 他完全是靠著kernel density estimator來估計密度 然後用mode clustering去做分群
因此 比較的對象非常明確--即是mode clustering基於母體的資料密度函數

Chen et. al.[2015]描述收斂性的方法很直接--靠著clusters彼此的邊界來探討
在母體密度函數下 我們clusters會有邊界D
根據樣本 我們會產生clusters邊界E
我們只要說明邊界E收斂到邊界D即可說明mean shift會收斂
而這篇文章的重點也在於如何證明邊界E會收斂到邊界D
(他們其實證明了廣義上的mode clustering的收斂性)

---

雖然這三個方法收斂性的描繪不盡相同
他們其實都俱有下列的性質

  1. 定義一個母體的clustering結構 (k-means是靠k個中心; spectral是靠前面幾個eigenvectors; mean shift靠clusters的邊界)
  2. 說明如何在這樣的結構下定義"收斂" (數學上就是找一個metric 讓這些可能的結構成為一個metric space)
  3. 證明樣本的clustering結構收斂到母體的結構

基本上 上述這三個性質就是要把clustering的問題轉換成估計(estimation)的問題
因此可以探討所謂的收斂性

做實務的人可能會問 為什麼我們在乎clustering的收斂性?
除了這個問題理論上本身有趣之外
收斂性會告訴我們當我們收集到越來越多樣本後 我們clustering的結果是穩定的
此外 收斂的對象(母體的clustering結構)多半告訴我們這套clustering背後再運用的是怎樣的數學/統計模型
這在詮釋clustering上非常好用
而證明收斂性的定理往往需要一些假設
當今天一筆資料某個clustering方法失敗 我們就能知道某些假設是不滿足的--這往往能夠引導我們往後的處理