[회귀분석-1]기본 회귀 분석

2016.09.25 03:47

최한철 조회 수:305

『Disclaimer: 본 글은 대학원의 회귀분석 수업 및 회귀분석 서적에 관한 공부 내용을 정리하는 시리즈입니다. 

본 내용은 필자가 전부 직접 요약하여 적은 개인 노트이며, 개인 공부 및 복습이 주목적일 뿐, 상업적 의도는 없습니다. 

Source: Regression Modeling with Actuarial and Financial Applications by Edward W. Frees


1-1. Correlation


Ordinary 혹은 Pearson correlation coefficient는 linear relationship의 measure다.

1.jpg

이고, sample standard deviation은

2.jpg

이며, sx는 마찬가지로 정의된다.

-1 ≤ r ≤ 1 이고, r = 1이나 -1이면 perfectly correlated라 한다.

이 상관계수는 location and scale invariant다. 즉, 사칙 연산에 의해 변하지 않는다.

또한 dimensionless measure, 즉 단위에 영향받지 않는다.


1-2. Least Squares


일반적으로 y는 response or dependent variable, x는 explanatory or independent variable로 둔다.

x와 y간 line을 fit하기 위해서, method of least squares를 사용한다.
Line y = b0* + b1*x 에서 b0와 b1는 각 intercept와 slope이고, 
ith observation에 대해, yi - (b0* + b1*xi)는 xi에서의 line에서 observed value yi의 deviation을 표현한다.
3.jpg
위의 quantity는 이 candidate line의 sum of squared deviation이다.
Least squares method는 SS(b0*, b1*)를 최소화하는 b0*와 b1*를 구하는 것이 주요하다. 이는 미적분을 통해 쉽게 풀 수 있다.
양쪽에 각 argument에 대해 partial derivatives를 구하면,

4.jpg

그리고,

5.jpg

(최대화가 아닌 최소화하는 것임을 확인하려면 2차 partial derivatives를 구하면 된다)

위의 두 식들을 0으로 두고 상수항들을 제거하면,

6.jpg

7.jpg

위는 normal equations라 한다. 이 두 식을 구하면 sum of squares를 최소화하는 b0*와 b1*를 아래와 같이 구할 수 있다.

8.jpg

이들이 도출하는 line인 

9.jpg

은 fitted regression line이라고 한다. 여기서 보면 두 b는 더 이상 candidate values가 아니기 때문에 *를 없앴다.


1-3. Basic Linear Regression Model


Simple linear regression model이라고도 부른다. Basic/simple은 하나의 explanatory variable을 사용하기 때문이다.

이 모델에는 네 가지 assumption이 있는데, observables 표현과 error 표현 두 가지로 접근할 수 있다.

10.jpg

Observables 표현은 우리가 observe 가능한 (xi, yi)에 focus를 한다.

(xi, yi)에 대한 sampling mechanism을 고려할 때는 stratified random sampling scheme을 생각하면 편한데,

여기서 {x1, ..., xn}의 값이 strata, 혹은 group으로 취급된다. Stratified sampling에서는 각 xi에 대해 population에서 random sample을 뽑는다.

(참고로, Top 50 매니저, Top 100 대학 등의 레포트들이 흔한데, regression application에서는 dependent variable에 기초해 observable을 고르지 않는게 중요하다. 이는 y에 기초에 stratifying하는 것이다)

F2는 변수가 무작위적이지 않다는 것이고, F3은 homoscedasticity라 부른다.

생략된 다섯번째 assumption은 F5. {yi}는 정규 분포란 것이다. 대부분의 통계량에서 central limit theorem이 대략적인 정규성을 부여하기 때문에 자주 생략된다.

11.jpg

Error representation은 Gaussian theory of error에 의거한 것인데, regression의 error인 εi = yi - (β0 + β1xi)에 포커스를 맞춘다.

그러나 이는 관찰가능한 x, y가 아닌 관찰불가능한 error를 다루기 때문에 단점이 있다.

예를 들어 {εi}를 simple random variable임은 입증이 불가능하다. sample을 관찰할 수 없기 때문이다.

결국 E1-4와 F1-4는 동일하다. 아래는 요약이다.

12.jpg

13.jpg


1-4. Basic Summary Statistics


만일 x의 지식 없이 ith dependent variable을 추정하려면, ybar(평균)이 가장 적절하고, yi - ybar은 그 deviation을 표현한다.

14.jpg

만일 x의 지식이 생긴다면, 각 observation에 대해 fitted value yhat = b0 + b1xi를 구할 수 있고, 이제 yhat과 ybar 두개의 추정량이 생긴다.

Regression line이 유용하다면, yhat이 ybar보다 더 정확한 척도가 되어야 할 것이다. 이를 표현하면,

15.jpg

위는 "x의 지식없는 deviation은, x의 지식하의 deviation에 x로 설명되는 deviation을 더한 것이다"고 해석될 수 있다.

16.jpg

그리고 식의 양변을 제곱하여 모든 관찰값에 대해 더하면 아래의 식이 도출된다.

Cross term인 2(yi - yhat)(yhat - ybar)의 경우 0이 되는데, 이는 일반적인게 아니라 least squares fitted line의 특성이다.

17.jpg

다시 말해 Total SS = Error SS + Regression SS라 한다.

Total SS: total variation without knowledge of x

Error SS: total variation remaining after the introduction of x

Regression SS: total variation explained through knowledge of x


일반적으로, 이러한 variability decomposition은 R2으로 표현한다.

18.jpg

R2 혹은 R-square는 coefficient of determination으로, 0 ≤ R2 ≤ 1 사이고 클수록 fit이 잘되었음을 말해준다.


1-5. Size of Typical Deviation: s


Basic linear regression model에서 regression line yi - (β0 + β1xi)로부터의 response의 deviation은 parameter가 unobservable이라 측정가능하지가 않다. 

그러나 estimator b0, b1를 사용해 deviation을 approximate할 수 있다.

19.jpg

이는 residual이라고 한다. Residual은 model specification을 개선하는데 굉장히 중요하다.


이제 residual을 이용해 σ2를 estimate하는 방법을 보자.

σ의 estimator, mean square error(MSE)는 아래와 같이 정의된다.

20.jpg

Positive square root, s는 residual standard deviation이라고 한다. (ei - ebar) 가 아닌 ei인 이유는 residual의 mean이 0이기 때문이다.

여기서 n - 1이 아닌, n - 2로 나눈 이유는, data에 line을 fit할 때는, 최소한 두개의 관측값이 있어야 line을 정할 수 있기 때문이다.

예를 들어, 최소한 3개의 관측값이 있어야 line의 variability에 대해 논할 수 있다. (두 개면 그냥 둘을 이은게 fit한 value)

따라서 degree of freedom은 n - 2이고, n - 2로 나눠야 s2가 σ2의 unbiased estimator가 된다.


이 s2는 sum of squares 값으로 표현될 수 있는데,

21.jpg

그리고 analysis of variance 혹은 ANOVA table을 구할 수 있다.

22.jpg

여기서 mean square 열은, SS를 해당되는 df로 나눈 값이다.

MSE는 s2이고, RMS는 RSS를 df로 나눈 값인데, 여기서는 one variable regression이라서 동일하다.


1-6. Properties of Regression Coefficient Estimators


Least squares estimates는 responses의 weighted sum으로 표현될 수 있다. 가중치를 아래와 같이 정의한다.

23.jpg

모든 x-deviations (xi - xbar)의 합은 0이므로, 가중치의 합은 0이다. 따라서, slope estimate은 아래와 같이 표현된다.

24.jpg  (식1)

이는 b0에도 적용된다. Regression coefficient들은 response들의 가중평균이므로, unusual 관측값에 크게 좌우된다.

b1이 가중평균이면, expectation과 variance를 구하기는 쉽다.

25.jpg

즉, b1는 β1의 unbiased estimator다. 

그리고 response들의 independence는 variance of sum은 sum of variance라는 걸 내포하므로,

26.jpg

여기서 파라미터를 s로 바꾸고 제곱근을 하면 아래가 도출된다. Standard error of b1, 즉 estimated standard deviation of b1은,

27.jpg

이 값은 n, s, sx에 의해 결정되는데, 관측값 n이 클수록 작아지고, 관측값이 line에 가까워 s가 작으면 작아지고, explanatory variable x가 더 퍼져있을수록 작아진다.

se값이 작을수록 y와 x의 사이에 관계를 찾아내기 용이해 진다.


위의 b1식인 (식1)은 regression coefficient b1가 normally distributed임을 내포한다. 왜냐하면 linear combination of normal random variable은 마찬가지로 normal이기 때문이다.

따라서 assumption F5가 유효하면 b1도 정규분포다.


1-7. Statistical Inference


모델은 fit하고 나서, 세 가지 종류의 중요한 statement들을 만들 수 있다.

그 종류는 1) tests of hypothesized ideas, 2) estimates of model parameters, 3) predictions of new outcomes다.


1-7-1. T-test: Explanatory Variable


H0: β1 = 0 이면, basic regression model이 더 이상  explanatory variable x를 포함하지 않게 된다.

28.jpg

여기서 H0에 대해서는 hypothesized value가 0이므로 t(b1) = b1/se(b1)이다.

그리고 t(b1)의 sampling distribution은 df = n - 2인 t-distribution 이다.

29.jpg

이 외에 다른 방법은 p-value를 사용하는 방법도 있다.

30.jpg

혹은 상관계수 r을 이용할 수 있다.

상관계수는 x, y 중 어느 한쪽을 덧셈이나 곱셈으로 scale해도 유지되기 때문에,

31.jpg

x를 scale해서 yhat으로 만든 후, 

32.jpg

이렇게 표기하면, x와 y의 상관계수가 곧 y와 fitted value yhat의 상관계수가 된다.

이는 R2 = r2 라는 결과로 이어진다.


1-7-2. Confidence Interval


Slope β1의 100(1 - α)% confidence interval은, 

33.jpg


1-7-3. Prediction Interval


Point prediction은 fitted regression line의 x*에서의 높이이다.

34.jpg

그리고 prediction error는 아래와 같이 decompose할 수 있다.

35.jpg

그리고 standard error of prediction은 아래와 같다.

36.jpg

Sample size n이 커지면 se(pred)는 s에 근접하며 ε*이 모든 uncertainty의 source가 된다.

x*에서의 100(1 - α)% Prediction Interval은 아래와 같다.

37.jpg


1-7-4. Residual Analysis


Error representation 하에서 assumption을 체크해서 model을 개선하는 방법을 알아본다.

이 가정 하에서 deviation {εi}는 i.i.d이며 F5에 의해 정규분포다. 이를 확인하기 위해 {εi}의 approximation으로써 관측된 값 {ei}를 살펴본다.

중요한 건 e가 다른 variable에 관련되거나 다른 패턴이 있으면 그걸 이용해 모델을 개선하는 것이다.

일반적으로 5가지의 model discrepancies가 있다.

38.jpg

Residual analysis에서는 많은 부분에 residual을 그 standard error로 나눈 standardized residual을 이용한다.

일반적으로 standardized residual의 절대값이 2를 초과하면 outlier라고 한다.

수직으로 unusual하면 outlier, 수평으로 unusual하면 high leverage point라 한다.

그리고, standardized residual은 dimensionless(단위가 없음)기 때문에 다른 dataset 간의 비교가 용이하다.

Regression analysis은 unusual point나 다른 문제에 대한 질문을 던지지 그 해답을 제공하지 않는다.

왜 그런 unusual point가 일어나는지는 별도로 연구해야 한다.


1-8. R 패키지 구현


39.jpg

각 부분에 대한 설명은 아래와 같다.

40.jpg


댓글 0

목록
번호 제목 글쓴이 날짜 조회 수
공지 [공지]데이터 과학 게시판의 운영에 관하여 최한철 2016.04.23 89
22 [일반]데이터 사이언스 공부 사이트 정리 최한철 2018.09.23 34
21 [계량경제학]Nonparametric Smoothing file 최한철 2018.07.13 23
20 [계산통계학]Convex Functions 최한철 2017.02.14 214
19 [머신러닝]Support Vector Machine 최한철 2017.02.13 198
18 [계산통계학]Automatic Differentiation 최한철 2017.01.23 126
17 [시계열분석-8]시계열 모델과 예측 file 최한철 2016.12.04 192
16 [시계열분석-7]자기상관과 AR모델 file 최한철 2016.12.04 918
15 [시계열분석-6]추세의 모델링 file 최한철 2016.12.04 129
14 [회귀분석-5]회귀분석 결과의 해석 file 최한철 2016.12.03 122
13 [회귀분석-4]변수 선택 및 모델의 진단 file 최한철 2016.12.03 684
12 [회귀분석-3]다중 회귀 분석 II file 최한철 2016.10.12 75
11 [회귀분석-2]다중 회귀 분석 file 최한철 2016.10.09 555
10 [알고리즘-7]그래프의 최단 거리 최한철 2016.10.09 86
9 [알고리즘-6]DFS의 응용 file 최한철 2016.09.29 389
» [회귀분석-1]기본 회귀 분석 file 최한철 2016.09.25 305
7 [알고리즘-5]BFS의 응용 file 최한철 2016.09.19 381
6 [알고리즘-4]그래프 file 최한철 2016.09.18 869
5 [알고리즘-3]Master Theorem file 최한철 2016.09.15 302
4 [알고리즘-2]알고리즘 디자인 file 최한철 2016.09.10 331
3 [알고리즘-1]알고리즘의 정의 최한철 2016.09.08 219