데이터 분석 준전문가(adsp) - 회귀분석
1.회귀분석의 개요
가. 회귀분석의 정의
- 하나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법이다.
- 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법이다.
- 독립변수의 개수가 하나이면 단순선형외귀분석 , 독립변수의 개수가 두 개 이상이면 다중선형 회귀분석으로 분석할 수 있다.
나. 회귀분석의 변수
- 영향을 받는 변수 ( y ) : 반응변수 ( response variable ) , 종속변수 (dependent variable) , 결과변수 (outcome variable)
- 영향을 주는 변수 ( x ) : 설명변수 ( explanatory variable ) , 독립변수 ( independent variable ) , 예측변수 ( predictor variable )
다. 선형회귀분석의 가정
1) 선형성
- 입력변수와 출력변수의 관계가 선형이다 ( 선형회귀분석에서 가장 중요한 가정 )
2) 등분산성
- 오차의 분산이 입력변수와 무관하게 일정하다. 잔차플롯(산점도)를 활용하여 잔차와 입력변수간에 아무런 관련성이 없게 무작위적으로 고루 분포되어야 등분산성 가정을 만족하게 된다.
3) 독립성
- 입력변수와 오차는 관련이 없다. 자기상관(독립성)을 알아보기 위해 Durbin-Waston 통계량을 사용하며 주로 시계열 데이터에서 많이 활용한다.
4) 비상관성
- 오차들끼리 상관이 없다
5) 정상성 ( 정규성 )
- 오차의 분포가 정규분포를 따른다. Q-Q plot , Kolmogolov-Smirnov 검정, Shaprio-Wilk 검정 등을 활용하여 정규성을 확인한다.
라. 그래프를 활용한 선형회귀분석의 가정 검토
1) 선형성
- 선형회귀모형에서는 설명 변수(x) 와 반응변수(y)가 선형적 관계에 있음이 전제되어야 한다.
2) 등분산성
가) 등분산성을 만족하는 경우
- 설명변수(x)에 대한 잔차의 산점도를 그렸을 때 , 설명변수(x) 값에 관계없이 잔차들의 변동성(분산)이 일정한 형태를 보이면 선형회귀분석의 가정중 등분산성을 만족한다고 볼 수 있다.
나) 등분산성을 만족하지 못하는 경우
3) 정규성
- Q-Q Plot을 출력했을 때 잔차가 대각방향의 직선의 형태를 지니고 있으면 잔차는 정규분포를 따른다고 할 수 있다.
마.가정에 대한 검증
1) 단순선형회귀분석
- 입력변수와 출력변수간의 선형성을 점검하기 위해 산점도를 확인한다.
2) 다중선형회귀분석
- 선형회귀분석의 가정인 성형성 , 등분산성 , 독립성 , 정상성이 모두 만족하는지 확인해야 한다.
2.단순성형회귀분석
- 하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법이다.
가. 회귀분석에서의 검토사항
1) 회귀계수들이 유의미한가?
- 해당 계수의 t 통계량의 p-값이 0.05보다 작으면 해당 회귀계수가 통계적으로 유의하다고 볼 수 있다.
2) 모형이 얼마나 설명력을 갖는가?
- 결정계수(R2)를 확인한다. 결정계수는 0~1값을 가지며 , 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.
3) 모형이 데이터를 잘 적합하고 있는가?
- 잔차를 그래프로 그리고 회귀진단을 한다.
나. 회귀계수의 추정 ( 최소제곱법 , 최소자승법 )
- 측정값을 기초로 하여 적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법으로 잔차제곱이 가장 작은 선을 구하는 것을 의미한다.
다. 회귀분석의 검정
1) 회귀계수의 검정
- 회귀계수 B1이 0이면 입력변수 x와 출력 y사이에는 아무런 인과관계가 없다.
- 회귀계수 B1이 1이면 적합된 추정식은 아무 의미가 없게 된다.
2) 결정계수
3) 회귀직선의 적합도 검토
- 결정계수(R2)를 통해 추정된 회귀식이 얼마나 타당한지 검토한다.
( 결정계수 R2가 1에 가까울수록 회귀모형이 자료를 잘 설명함 )
- 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표이다.
- 다변량 회귀분석에서는 독립변수의 수가 많아지면 결정계수(R2)가 높아지므로 독립변수가 유의하든 , 유의하지 않든 독립변수의 수가 많아지면 결정계수가 높아지는 단점이 있다.
- 이러한 결정계수의 단점을 보완하기 위해 수정된 결정계수 (R2)를 활용한다. 수정된 결정계수는 결정계수보다 작은 값으로 산출되는 특징이 있다.
오차(error)와 잔차(residual)의 차이
오차 : 모집단에서 실제값이 회귀선과 비교해 볼 때 나타나는 차이 ( 정확치와 관측치의 차이 )
잔차 : 표본에서 나온 관측값이 회귀선과 비교해볼 때 나타나는 차이
회귀모형에서 오차항은 측정할 수 없으므로 잔차를 오차항의 관찰값으로 해석하여 오차항에 대한 가정들의 성립 여부를 조사함
3. 다중선형회귀분석
가. 다중선형회귀분석 (다변량회귀분석)
2) 모형의 통계적 유의성
- 모형의 통계적 유의성은 F통계량으로 확인한다
- 유의수준 5% 하에서 F통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있다.
- F통계량이 크면 p-value가 0.05보다 작아지고 이렇게 되면 귀무가설을 기각한다. 즉 , 모형이 유의하다고 결론지을 수 있다.
3) 회귀계수의 유의성
- 회귀계수의 유의성은 단변량 회귀분석의 회귀계수 유의성 검토와 같이 t통계량을 통해 확인한다.
- 모든 회귀계수의 유의성이 통계적으로 검증되어야 선택된 변수들의 조합으로 모형을 활용할 수 있다.
4) 모형의 설명력
- 결정계수(R2)나 수정된 결정계수(R2)를 확인한다
5) 모형의 적합성
- 모형이 데이터를 잘 적합하고 있는지 잔차와 종속변수의 산점도로 확인한다
6) 데이터가 전제하는 가정을 만족시키는가?
- 선형성 , 독립성 , 등분산성 , 비상관성 , 정상성
7) 다중공선성 ( multicollinearity )
- 다중회귀분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란하다.
- 다중공선성 검사 방법
가) 분산팽창요인(VIF) : 4보다 크면 다중공선성이 존재한다고 볼 수 있고 , 10보다 크면 심각한 문제가 있는 것으로 해석할 수 있다.
나) 상태지수 : 10이상이면 문제가 있다고 보고 , 30 보다 크면 심각한 문제가 있다고 해석할 수 있다.
- 다중선형회귀분석에서 다중공선성의 문제가 발생하면 문제가 있는 변수를 제거하거나 주성분회귀 , 능형회귀 모형을 적용하여 문제를 해결한다.
4.회귀분석의 종류
단순회귀 : 독립변수가 1개이며 종속변수와의 관계가 직선
다중회귀 : 독립변수가 k개이며 종속변수와의 관계까 선형 ( 1차 함수 )
로지스틱 회귀 : 종속변수가 범주형 (2진변수)인 경우에 적용되며 , 단순 로지스틱 회귀 및 다중 , 다항 로지스틱 회귀로 확장할 수 있음
다항회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계
곡선회귀 : 독립변수가 1개이며 종속변수와의 관계까 곡선
비선형회귀 : 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져 있지 않은 모형
6. 최적회귀방정식
가. 최적회귀방정식의 선택
1) 설명변수 선택
- 필요한 변수만 상황에 따라 타협을 통해 선택한다
- y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는데 참여한다.
- 데이터에 설명변수 x들의 수가 많아지면 관리하는데 많은 노력이 요구되므로 , 가능한 범위 내에서 적은 수의 설명변수를 포함한다.
2) 모형선택(exploratory analysis) : 분석 데이터에 가장 잘 맞는 모형을 찾아내는 방법이다.
- 모든 가능한 조합의 회귀분석 ( All possible regression ) : 모든 가능한 독립변수들의 조합에 대한 회귀모형을 생성한 뒤 가장 적합한 회귀모형을 선택
3) 단계적 변수선택 ( Stepwise Variable Selection )
- 전진선택법 ( forward selection ) : 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가한다 / 이해하기 쉽고 변수의 개수가 많은 경우에도 사용가능합니다. 하지만 변수값의 작은 변동에도 그 결과가 크게 달라져 안정성이 부족한 단점이 있다.
- 후진제거법 ( backward elimination ) : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택한다 / 전체 변수들의 정보를 이용하는 장점이 있는 반면 변수의 개수가 많은 경우 사용하기 어렵습니다.
- 단계선택법 ( stepwise method ) : 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단한다.
나. 벌점화된 선택기준
1) 개요
- 모형의 복잡도에 벌점을 주는 방법으로 AIC방법과 BIC방법이 주로 사용된다
2) 방법
- AIC ( Akaike information criterion )
- BIC ( Bayesian information criterion )
3) 설명
- 모든 후보 모형들에 대해 AIC or BIC를 계산하고 그 값이 최소가 되는 모형을 선택한다
- 모형선택의 일치성 ( consistency inselection ) : 자료의 수가 늘어날 때 참인 모형이 주어진 모형 선택 기준의 최소값을 갖게 되는 성질이다.
- 이론적으로 AIC에 대해서 일치성이 성립하지만 BIC는 주요 분포에서 이러한 성질이 성립한다.
- AIC를 활용하는 방법이 보편화된 방법이다.
- 그 밖의 벌점화 선택기준으로 RIC ( risk inflation criterion ) , CIC ( covariance inflation cri-terion ) , DIC (deviation information criterion ) 가 있다.