Empircal Model-Building Method-(1)

Empircal Model-Building Method(經驗模式方法)

20151123 文字資料撰寫

Introduction

關於經驗模式方法,首先要先知道這個方法感興趣的目標是什麼,才能套用利用不同的統計方法來找出這個目標。
感興趣的問題是反應值(response,或稱dependent variable,也就是相依變數)和多個獨立變數(independent variables)之間的關係。如:y=f(X)。
而當我們的目標是多個反應值與多個獨立變數之間的關係,則我們可以稱之多變量分析(multivariate analysis)。

Definition of Empirical

簡單來說,是根據觀察(observation)或經驗(experience)作為資料來源,也就是empirical data.
而通常這些觀察或經驗通常是沒有參考理論,也就是研究者相信相依變數y是與獨立變數 x1等獨立變數會服從某種關係式。

Type of Empirical Data

可以經驗資料根據資料蒐集的方式大致上分為兩類,一是過去的觀察,二是計畫的觀察。
過去的觀察的資料通常是從歷史的資料蒐集而來,也就是獨立變數是沒有受研究者所控制,與他相關的主題是本篇章會討論的迴歸(Regression)、線性模型(GLM,General/Generalized Linear Models)與另外課程會討論的時間序列(Time Series)問題。
計畫的觀察的資料是從有規劃(設計)的實驗而得來,也就是獨立變數是受到研究者控制的。
與他相關的主題可以參考另外的課程實驗設計(DOE,Design of Experiment)。

EDA(Exploratory Data Analysis)

這個算是進入迴歸分析前(進行任何統計推論或假設檢定前),我們需要對資料做的一個重要步驟。藉由可以用量化的方式概述資料或視覺化的呈現資料,協助我們找到一些意想不到的patterns(不太清楚怎麼翻譯比較精確)和資料間的關係。
我們可以得到比較巨觀的視野,從將資料透過1.資料視覺化的技巧(用圖像化的方式)、2.敘述統計(Descriptive statistics)。
資料視覺化有很多圖形可以呈現出資料,包含像是直方圖(Histogram)、推移圖/趨勢圖(Run chart)、圓餅圖(Pie chart)、柏拉圖(Pareto chart)、盒鬚圖(Box plot、Box-Whisker Plot)、散佈圖/分布圖(Scatter plot)、莖葉圖(stem-and-leaf plot)等。這些圖案可以對資料做不同的解釋。
  • 直方圖常用於判斷資料的分布是否服從常態分布(迴歸常要檢定是否有服從Normality assumption),可以給一個比較初步的判斷。
  • 趨勢圖/推移圖Run chart則可以看出我們觀察的資料與時間序列的關係,了解時間是否對資料有所影響,是否是有週期性的,或是隨著時間會上升或下降。舉例而言,觀察餐廳的營業額,一個月中的每一周可能都是週期性的,可能是周一~周四都是較低的情況,越靠近周末就會上升,然後每周重複這樣的循環。而已品質管理的例子來說,可能時間越長,機器加工的設定會有偏差,誤差的情況會越頻繁出現,那就是隨著時間上升的例子。
  • 圓餅圖可以看出各群組之間的組成比例,當類別不會太多時可以用這個組成比例。
  • 柏拉圖則是將資料從比例多的開始排列,附帶有累積的比例曲線,當我們要瞭解資料是不是受較少的資料所貢獻出來時,即可用此分析。在研究上的例子是當我們要簡化研究對象的種類,則可以先用此圖判斷。因為當少量的資料可以對反應做出巨大的貢獻時,則可以鎖定特定的對象進行研究。
  • 散佈圖可以看出兩變數之間的關係


Conclusion

當我們要拿資料來分析前都是必須先畫出資料判斷,好處是可以找尋資料中是否有離群值(Outliers),可以進行敘述統計的計算,進而來修正。
可以發現的問題像是資料可能有輸入上的錯誤、錯誤的量測、錯誤的量測方法,之後進行問題修正。
若是有離群值,則可以刪除資料(移除離群值)或是縮減資料(可能某點過後資料皆錯誤)。
如果資料從圖中可以發現歪斜(askew)則可以利用之後提到的轉換資料來修正,得以繼續分析資料。

留言