[Note] Linear Regression
Aug 21, 2021
目的是要由一給定值去得到預估對應值,若要求得此 function 必須經由下列3 項步驟 :
1. 使用最小平方差去找到一條線可以剛好對應這些 Data
2. 計算 R² (目的是去了解上步驟的猜測有多精準)
3. 計算 R² 的 p-value (判斷給定 Data 是否具有統計顯著性)
如何找那條線 ?
- 首先將 Data 布於 x-y graph 上
- 劃一條線
- 計算每點 Data 至那條線之平均最短距離平方差
- 旋轉那條線,並繼續計算平均最短距離平方差
- 轉360度後,選擇那最小差異值,便求得 Fit line
求得R² ?
每筆資料針對那條線求出 Var(fit)
之後再依照當前有的Data對應項求出其 Var(mean)
最後如下圖例所示 R² = [Var(mean)-Var(fit)] / Var(fit)
R² 大小介於 0%~100% (越接近 100% 代表其 line 所預估的對應值越符合)
R² 也代表有多少 percentage 的 Data 可以用這預估出來
求得P-value?
判斷給定 Data 是否具有統計顯著性
至少與相同極端的樣本的機率(越小越好)
透過大量計算 F (基於 Fit line 之 Function 變數變化量) ,求得線性圖示
P-value 就是極值 (ex : F = 7) 在所有 F 下所佔的比例