over 3 years ago

最近對資料分析 有新的領悟
我把資料分析分成兩大類型 三種議題
第一大類 動態資料分析
第二大類 靜態資料分析
其中靜態資料分析又包含兩種情況:

  1. 低規模高資訊量 2.高規模低資訊量

(1) 第一種議題: 動態資料分析
動態資料與靜態資料的最大差異在於
動態資料分析的情況時間非常非常有限
誰先搶到資料 就算分析方法很爛 也具有絕對的優勢
這在許多商業問題 軍事議題 科學研究 都會碰到
科學上有些研究 只要哪個實驗室先作出某個樣本
就直接可以宣告勝利了
商業上更常看到 只要掌握下一季某些企業的投資策略的資訊
就能夠狠狠吃倒對方一次

另外兩種議題都是靜態資料分析
所謂靜態資料 就表示時間並不急迫
所以我們有相對充裕時間可以慢慢分析
靜態資料分析是統計學主要在研究的對象

隨著資料的規模(資料複雜度or維度還有樣本數)與單位資訊含量
我們可以粗略分成四種:

  1. 高規模高資訊
  2. 低規模高資訊
  3. 高規模低資訊
  4. 低規模低資訊

1 的情況太過美好 也不太可能存在於真實世裡
所以鮮少被討論
4 的情況幾乎沒辦法分析 又少資料 又少資訊 做不出什麼推論

所以2. 3.兩種情況分別對應到靜態資料分析的第二與第三種議題

(2) 第二種議題: 低規模高資訊靜態資料分析
低規模表示 資料的維度都是少量的 並且實際樣本數通常不大
單位資訊含量高表示誤差小 或至少非常符合理想狀態(e.g.獨立)
因此 雖然樣本數不大 但因為符合理想狀態 所以可以做很好的推論
這是古典統計學常常碰到的問題
而這方面的問題已經被大量的研究

(3) 第三種議題: 高規模低資訊靜態資料分析
這是當前統計學還有機械學習 data mining常常在研究的
雖然模型很複雜 並且資訊量低
但同時樣本數非常巨大 所以我們依舊可以得到一些成果

← Sparsity的小故事 敘述統計學(descriptive statistics)雜感 →
 
comments powered by Disqus