자격증/ADSP

데이터 분석 준전문가(adsp) - 데이터 가공

IT grow. 2020. 1. 31. 23:54
반응형

1. Data Exploration

 

가. 개요 

 

- 데이터 분석을 위한 구성된 데이터의 변수들의 상태를 파악한다.

 

 

나. 종류 

 

1) head(데이터셋) , tail(데이터셋)

- 시작 또는 마지막 6개 record만 조회하는 함수 

 

2) summary(데이터셋)

 

가) 수치형변수 : 최대값 , 최소값 , 평균 , 1사분위수 , 2사분위수(중앙값) , 3사분위수

나) 명목형변수 : 명목값 , 데이터 개수 

 

 

2. 변수 중요도 

 

가. 개요 

 

- 변수 선택법과 유사한 개념으로 모형을 생성하여 사용된 변수의 중요도를 살피는 과정이다.

 

 

나. 종류 

 

1) klaR 패키지 

 

- 특정 변수가 주어졌을 때 클래스가 어떻게 분류되는지에 대한 에러율을 계산해주고 , 그래픽으로 결과를 보여주는 기능을 한다.

 

- greedy.wilks() : 세분화를 위한 stepwise forward 변수선택을 위한 패키지 , 종속변수에 가장 영향력을 미치는 변수를 wilks lambda를 활용하여 변수의 중요도를 정리 

( wilk's lambda = 집단내분산 / 총분산 ) 

 

 

3. 변수의 구간화

 

가. 개요 

 

- 연속형 변수를 분석 목적에 맞게 활용하기 위해 구간화하여 모델링에 적용한다.

# 일반적으로 10진수 단위로 구간화하지만 , 구간을 5개로 나누는 것이 보통이며 , 7개 이상의 구간을 잘 만들지 않는다.

 

- 신용평가모형 , 고객 세분화와 같은 시스템에서 모형에 활용하는 각 변수들을 구간화해서 구간별로 점수를 적용하는 스코어링 방식으로 많이 활용되고 있다.

 

 

나. 구간화 방법 

 

1) binning 

 

- 신용평가모형의 개발에서 연속형 변수 ( 부채비율 등 ) 를 범주형 변수로 구간화 하는데 자주 활용되고 있는 방법이다.

 

 

2) 의사결정나무 

 

- 세분화 또는 예측에 활용되는 의사결정나무 모형을 사용하여 입력변수들을 구간화 할 수 있다. 의사결정나무에서는 동일한 변수를 여러 번의 분리기준으로 사용이 가능하기 때문에 연속변수가 반복적으로 선택될 경우 , 각각의 분리 기준값으로 연속형 변수를 구간화 할 수 있다.

 

 

 

 

 

반응형