자격증/ADSP

데이터 분석 준전문가(adsp) - 주성분 분석

IT grow. 2020. 2. 11. 15:19
반응형

1. 주성분분석 ( Principal Component Analysis ) 

 

- 여러 변수들의 변량을 '주성분(Principal Component)' 이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약,축소하는 기법이다.

 

- 첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록하고 , 두 번째 주성분으로는 첫 번째 주성분과는 상관성이 없어서(낮아서) 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다.

 

 

2. 주성분분석의 목적 

 

- 여러 변수들 간에 내재하는 상관관계 , 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해준다.

 

- 다중공선성이 존재하는 경우 , 상관성이 없는 ( 적은 ) 주성분으로 변수들을 축소하여 모형 개발에 활용된다 ( 회귀분석이나 의사결정나무 ) 등의 모형 개발 시 입력변수들간의 상관관계까 높은 다중공선성 ( multicollinearity ) 이 존재할 경우 모형이 잘못 만들어져 문제가 생김 

 

- 연관성이 높은 변수를 주성분분석을 통해 차원으 축소한 후에 군집분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있다.

 

- 기계에서 나오는 다수의 센서데이터를 주성분분석으로 차원을 축소한 후에 시계열로 분포나 추세의 변화를 분석하면 기계의 고장 ( fatal failure ) 징후를 사전에 파악하는데 활용하기도 한다 . 

 

 

3. 주성분분석 Vs 요인분석 

 

가. 요인분석 ( Factor Analysis ) 

- 등간척도(혹은 비율척도)로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법이다.

 

나. 공통점 

- 모두 데이터를 축소하는데 활용된다. 원래 데이터를 활용해서 몇 개의 새로운 변수들을 만들 수 있다.

 

 

다. 차이점 

 

1) 생성된 변수의 수 

- 요인분석은 몇 개라고 지정 없이 ( 2 or 3 , 4 , 5 ) 만들 수 있다.

- 주성분분석은 제1주성분 , 제2주성분 , 제3주성분 정도로 활용된다 ( 대개 4개 이상은 넘지 않음 ) 

 

2) 생성된 변수의 이름 

- 요인분석은 분석자가 요인의 이름을 명명한다.

- 주성분분석은 주로 제1주성분 , 제2주성분 등으로 표현된다.

 

3) 생성된 변수들 간의 관계 

- 요인분석은 새 변수들은 기본적으로 대등한 관계를 갖고 ' 어떤 것이 더 중요하다 ' 라는 의미는 요인분석에서는 없다.  단 , 분류/예측에 그 다음 단계로 사용된다면 그 때 중요성의 의미가 부여된다.

- 주성분분석은 제1주성분이 가장 중요하고 , 그 다음 제2주성분이 중요하게 취급된다.

 

4) 분석 방법의 의미 

- 요인분석은 목표변수를 고려하지 않고 그냥 데이터가 주어지면 변수들을 비슷한 성격들로 묶어서 새로운 [잠재]변수들을 만든다.

- 주성분분석은 목표 변수를 고려하여 목표 변수를 잘 예측/분류하기 위하여 원래 변수들의 선형 결합으로 이루어진 몇 개의 주성분(변수)들을 찾아내게 된다.

 

 

4. 주성분의 선택법 

- 주성분분석의 결과에서 누적기여율 ( cumulative proportion ) 이 85% 이상이면 주성분의 수로 결정할 수 있다.

- scree plot 을 활용하여 고유값 ( eigenvalue ) 이 수평을 유지하기 전단계로 주성분의 수를 선택한다. 

반응형