[회귀분석-2]다중 회귀 분석

2016.10.09 09:14

최한철 조회 수:555

『Disclaimer: 본 글은 대학원의 회귀분석 수업 및 회귀분석 서적에 관한 공부 내용을 정리하는 시리즈입니다. 

본 내용은 필자가 전부 직접 요약하여 적은 개인 노트이며, 개인 공부 및 복습이 주목적일 뿐, 상업적 의도는 없습니다. 

Source: Regression Modeling with Actuarial and Financial Applications by Edward W. Frees


본 섹션에서는 Simple Linear Regression을 확장하여 Multiple Linear Regression에 대해 알아본다.


2-1. Method of Least Squares(MLS)


(모든 dataset에 대해서는 우선 summary statistics, histogram, scatter plot을 체크하는 것이 좋다)

MLS에서의 method of least squares도 마찬가지로 아래의 SS를 최소화하는 것을 기초로 한다.

1.jpg

Best values, 즉 least squares estimates는 *를 빼고 표현하고, 이 estimates를 통해 least squares(or fitted) regression plane을 아래와 같이 정의한다.

2.jpg

SS를 최소화하는 estimates를 찾기 위해서는 행렬을 사용해야 한다.

3.jpg

일반적으로 X의 첫 열(x10, x20...)은 intercept term으로 1의 값을 가진다.

y는 n x 1의 벡터이고, X는 n x (k + 1)의 행렬이다. (소문자는 벡터, 대문자는 행렬)

이제 SS( )를 최소화하는 b*들을 구하기 위해서는, 각각에 대해 편미분을 취하고 0으로 둔다.

4.jpg

위는 k+1개의 unknown에 대한 k+1개의 식이므로 행렬을 이용하여 푼다. 

Parameter 행렬 b* = (b0*, ..., bk*)T로 두면, 

SS(b*) = (y - Xb*)T(y - Xb*) = yTy - bTXTy - yTXb + bTXTXb

여기서, (bTXTy)TyTXb는 1 x 1 행렬이므로 스칼라다. 고로,

yTy - bTXTy - yTXb + bTXTXb = yTy - 2bTXTy + bTXTXb

이를 b에 대해 미분하여 0으로 두면,

-2XTy + 2XTXb = 0


따라서 b = (XTX)-1XTy 이다.


2-2. 가정


다중 회귀 모형의 sampling assumptions들도 기본 회귀 모형과 비슷하다.

5.jpg


2-3. Regression Coefficient Estimators의 특성


Ey = 이다.


특성1) 가정 F1-4가 유효하면, estimator b는 parameter vector β의 unbiased estimator이다.

6.jpg


특성2) 가정 F1-4가 유효하면, estimator b는 variance Var b = σ2(XTX)-1 를 갖는다.

가정 F4에 의해 Cov(yi, yj) = 0이고, 가정 F3을 고려하면, 

7.jpg

그리고, 이를 이용하여 행렬 계산을 하면,

8.jpg

즉, 다르게 표현하면

16.jpg

Var bj는 σ2에 (X'X)-1의 (j+1)번째 diagonal entry를 곱한 값이다.

Cov(bi, bj)는 σ2에 (X'X)-1의 (i+1)번째 row와 (j+1)번째 column에 있는 element를 곱한 값이다.


특성3) Gauss-Markov Theorem: 가정 F1-4가 유효하면, 여러 class of estimator 중 least squares estimator b가 minimum variance unbiased estimator of parameter vector β 이다.

(BLUE: Best Linear Unbiased Estimate) Biased가 variance는 더 작을 수는 있다. 예를 들어 상수면 Var = 0 이다. 하지만 best는 아니다.

또한, XTX가 full rank가 아닐시 성립하지 않으며, 이 경우에는 variance를 최소화하기 위해 bias를 조금 introduce할 필요가 있다.

만일 Var가 너무 크고 샘플이 적으면 bias를 조금 넣어 variance를 minimize할 수 있다


특성4) 가정 F1-5가 유효하면, least squares estimator b는 정규분포를 띈다.

만약 weight vector wi = (XTX)-1(1, xi1, ..., xik)T를 정의하면, 

9.jpg

이고, b는 결국 response y의 linear combination이다. 가정 F5에 의해 response들은 정규분포이므로, b도 정규분포다.


2-4. Residual Standard Deviation


선형회귀 모델의 다른 parameter인 σ2의 estimator에 대해 알아보자. 이는 기대값을 sample average로 대체함으로써 구할 수 있다.

σ2 = E(y - Ey)2에서 10.jpg로 변환하고, Eyi = β0 + ... 는 관찰 불가능하므로 b0 + ... = yi-hat 으로 대체하면,

σ2의 estimator인 mean square error(MSE)를 아래와 같이 얻는다.

11.jpg

이것의 양의 제곱근 s는 residual standard deviation이라 한다. n 대신 n-(k+1)을 사용함으로써 이는 unbiased estimator가 된다.

우리가 Ey 대신 y-hat을 사용함으로써 deviation들 사이 소량의 dependencies가 발생했기 때문에, 분모에서도 이를 조정해 주는 것이다.

Residuals = estimated errors인데, error와 달리 residual은 그 평균이 0이어야 하는 것 등 때문에 서로 dependency가 있다.

s는 아래로 표현할 수도 있으며, "standard error of the estimate"이라고 하기도 한다.

12.jpg


2-5. R2


SST = SSE + SSR은 단순 회귀 모형과 동일하다.
R= SSR / SST 이며, 아래와 같이 response와 fitted value들 간에 상관계수로 표현할 수도 있다.

13.jpg

그래서 R2의 제곱근 R은 multiple correlation coefficient이라고 부르기도 한다. 

아래는 ANOVA table이며, 여기서 MSE = s2이고, Regression MS = Regression SS / k 이다.

14.jpg


Explanatory variable가 많을수록 R2는 커지는 것 때문에, adjusted R또한 이용한다.

15.jpg

여기서 sy는 모델이나 모델변수에 의존하지 않는다. 따라서, s2와 Ra2은 모델 fit에 대한 동일한 measure들이다.


2-6. T-Test


이전에 특성2에서, Var bj는 σ2에 (X'X)-1의 (j+1)번째 diagonal entry를 곱한 값이고, σ2를 estimator  s2로 바꿔 제곱근을 하면

17.jpg

이고, regression coefficient를 테스트하기 위해서는 아래를 거친다.

18.jpg


Confidence interval은 아래와 같다.

19.jpg


2-7. Added Variable Plots


회귀 분석을 하다보면 regression coefficient과 correlation의 sign이 다른 경우가 있다. 이 경우 added variable plot이 추가적인 정보를 준다.

y와 x3가 positive correlation을 보이는데 b3은 negative라고 하자. 그러면,

1) x3을 제외한 설명변수들에 대해 y의 regression을 실행하고, 그 residual을 계산한다. 이를 e1이라 두자.

2) 같은 설명변수들에 대해 x3의 regression을 실행하고, 그 residual을 e2라 한다.

3) e1와 e2를 plot한다.

이 added variable plot은, 다른 설명변수들의 영향을 control한 채 두 변수의 관계를 보여준다.

만일 이것이 negative relationship을 보여주면, 다른 설명변수가 둘에 강한 영향을 주고 있을 가능성이 있다.

예를 들어 x5가 y와 x둘다에 대해 강한 positive relationship을 가지고 있을 경우, y와 x사이에 positive correlation을 보일 수 있다.


이 added variable plot의 e1과 e2 사이의 correlation은 partial correlation coefficient라고 부르고, r(y, xj | x1, ..., xj-1, xj+1, ..., xk)로 표현한다.

그리고 아래를 통해 계산하는 방법도 있다.

20.jpg


2-8. Special Explanatory Variables


Categorical variable은 그룹으로 분류된 observation에 숫자를 부여한다. 이 중 두 숫자만 가능한 변수를 binary variable이라 한다. (indicator 변수 혹은 dummy 변수라고도 한다)

이 경우 regression coefficient의 해석은 continuous variable처럼 unit change당 y의 expected change가 아니라, 한 level에서 다른 level로 변할 때 y의 expected change이다.

Binary variable은 결국 1일 경우 intercept에 add되어 line을 수직으로 움직인다.


Nonlinear 관계는 exponential/logarithm/polynomial를 새로운 x로 transform함으로써 선형회귀를 적용시킬 수 있다.


또한 interaction term으로 x3 = x1 * x로 둠으로써, 아래와 같은 interaction을 모델링 할 수 있다.

21.jpg


*Le Maire의 연구의 문제점:

1. 4개의 explanatory variable을 골랐지만, 3개하는게 나을 수도 있었다.

2. 각 169개의 국가가 1 point씩, 즉 인구 비례한 weight가 아니다.

3. Quality of measurement: 덴마크 data는 정확, 아프리카는 부정확

댓글 0

목록
번호 제목 글쓴이 날짜 조회 수
공지 [공지]데이터 과학 게시판의 운영에 관하여 최한철 2016.04.23 89
22 [일반]데이터 사이언스 공부 사이트 정리 최한철 2018.09.23 34
21 [계량경제학]Nonparametric Smoothing file 최한철 2018.07.13 23
20 [계산통계학]Convex Functions 최한철 2017.02.14 214
19 [머신러닝]Support Vector Machine 최한철 2017.02.13 198
18 [계산통계학]Automatic Differentiation 최한철 2017.01.23 126
17 [시계열분석-8]시계열 모델과 예측 file 최한철 2016.12.04 192
16 [시계열분석-7]자기상관과 AR모델 file 최한철 2016.12.04 918
15 [시계열분석-6]추세의 모델링 file 최한철 2016.12.04 129
14 [회귀분석-5]회귀분석 결과의 해석 file 최한철 2016.12.03 122
13 [회귀분석-4]변수 선택 및 모델의 진단 file 최한철 2016.12.03 684
12 [회귀분석-3]다중 회귀 분석 II file 최한철 2016.10.12 75
» [회귀분석-2]다중 회귀 분석 file 최한철 2016.10.09 555
10 [알고리즘-7]그래프의 최단 거리 최한철 2016.10.09 86
9 [알고리즘-6]DFS의 응용 file 최한철 2016.09.29 389
8 [회귀분석-1]기본 회귀 분석 file 최한철 2016.09.25 305
7 [알고리즘-5]BFS의 응용 file 최한철 2016.09.19 381
6 [알고리즘-4]그래프 file 최한철 2016.09.18 869
5 [알고리즘-3]Master Theorem file 최한철 2016.09.15 302
4 [알고리즘-2]알고리즘 디자인 file 최한철 2016.09.10 331
3 [알고리즘-1]알고리즘의 정의 최한철 2016.09.08 219