『Disclaimer: 본 글은 대학원의 회귀분석 수업 및 회귀분석 서적에 관한 공부 내용을 정리하는 시리즈입니다. 

본 내용은 필자가 전부 직접 요약하여 적은 개인 노트이며, 개인 공부 및 복습이 주목적일 뿐, 상업적 의도는 없습니다. 

Source: Regression Modeling with Actuarial and Financial Applications by Edward W. Frees


5-1. Interpreting Individual Effects


개별 변수들의 해석은 세 가지에 달려 있다.

1) Substantive significance: 그 변수가 실제로 유의미한 영향을 주는지

2) Statistical significance: 분석 결과가 단순한 우연에 의한게 아닌지

Statistical significance가 없는 이유는 아래의 식에서 보면 a) disturbance term s의 큰 variation, b) VIF term 즉 높은 collinearity, c) 작은 샘플 사이즈 n.

01.jpg

3) Casual effects: data에서 causation를 exclusive하게 증명하기란 어렵다. 하지만 다음의 증거들이 많으면 causation이 있을 확률이 높다.

- Correlation: 상관계수가 높음 (β값이 큼)

- Consistency: 서로 다른 sample들에 모두 effect가 존재

- Specificity: 하나의 cause당 하나의 effect

- Temporality: cause가 시간적으로 effect보다 앞섬

- Gradient: slope가 급격함(light smoker < heavy smoker)

- Theory: 설득력있는 설명이 있음

- Related experiment: 관련 control된 연구가 있음


5-2. 변수 선택의 중요성


Underfitting은 significant error로 이어지는 반면 overfitting은 effect가 이에 비해 덜하므로 일반적으로 underfitting이 더 위험하다.

Overfitting의 경우 regression coefficient estimates가 unbiased로 남지만, underfitting의 경우 bias될 수 있다.


일반적으로 동일한 모델이면 principle of parsimony, 즉 Occam's razor에 의해 단순한 모델을 우선한다. 그 이유는,

- 단순한 모델은 해석이 쉽다.

- 단순한, parsimonious 모델은 out-of-sample data에 더 잘 perform한다.

- 지나친 변수들은 collinearity로 이어져 individual coefficient들의 해석을 어렵게 한다.


5-3. 데이터 수집의 중요성


Sampling frame error: 만약 sample이 뽑힌 list가 population의 좋은 approximation이 아닐 경우 발생.

이 bias는 adverse selection으로 이어질 수 있다. 건강보험과 연금보험에서, 리스크가 큰 사람들이 더 많이 apply하는 경우이다.

이럴 경우 전체 general population이 아닌, population of interest를 타겟으로 모델링을 해야 한다.


또 다른 문제인 limited sampling region은 extrapolate할 경우 문제를 야기할 수 있는데, 

예를 들어 quadratic curve가 실제 response일 때 한정된 region에 linear regression을 하면 결과값이 잘 나올 수가 있다.


그 외에는 limited dependent variables, censoring, truncation, omission, endogenous variables 등의 문제가 있을 수 있다.



책 섹션 6.5읽기?

댓글 0

목록
번호 제목 글쓴이 날짜 조회 수
공지 [공지]데이터 과학 게시판의 운영에 관하여 최한철 2016.04.23 89
22 [일반]데이터 사이언스 공부 사이트 정리 최한철 2018.09.23 34
21 [계량경제학]Nonparametric Smoothing file 최한철 2018.07.13 23
20 [계산통계학]Convex Functions 최한철 2017.02.14 214
19 [머신러닝]Support Vector Machine 최한철 2017.02.13 198
18 [계산통계학]Automatic Differentiation 최한철 2017.01.23 126
17 [시계열분석-8]시계열 모델과 예측 file 최한철 2016.12.04 192
16 [시계열분석-7]자기상관과 AR모델 file 최한철 2016.12.04 918
15 [시계열분석-6]추세의 모델링 file 최한철 2016.12.04 129
» [회귀분석-5]회귀분석 결과의 해석 file 최한철 2016.12.03 122
13 [회귀분석-4]변수 선택 및 모델의 진단 file 최한철 2016.12.03 684
12 [회귀분석-3]다중 회귀 분석 II file 최한철 2016.10.12 75
11 [회귀분석-2]다중 회귀 분석 file 최한철 2016.10.09 555
10 [알고리즘-7]그래프의 최단 거리 최한철 2016.10.09 86
9 [알고리즘-6]DFS의 응용 file 최한철 2016.09.29 389
8 [회귀분석-1]기본 회귀 분석 file 최한철 2016.09.25 305
7 [알고리즘-5]BFS의 응용 file 최한철 2016.09.19 381
6 [알고리즘-4]그래프 file 최한철 2016.09.18 869
5 [알고리즘-3]Master Theorem file 최한철 2016.09.15 302
4 [알고리즘-2]알고리즘 디자인 file 최한철 2016.09.10 331
3 [알고리즘-1]알고리즘의 정의 최한철 2016.09.08 219