1. Data Exploration
가. 개요
- 데이터 분석을 위한 구성된 데이터의 변수들의 상태를 파악한다.
나. 종류
1) head(데이터셋) , tail(데이터셋)
- 시작 또는 마지막 6개 record만 조회하는 함수
2) summary(데이터셋)
가) 수치형변수 : 최대값 , 최소값 , 평균 , 1사분위수 , 2사분위수(중앙값) , 3사분위수
나) 명목형변수 : 명목값 , 데이터 개수
2. 변수 중요도
가. 개요
- 변수 선택법과 유사한 개념으로 모형을 생성하여 사용된 변수의 중요도를 살피는 과정이다.
나. 종류
1) klaR 패키지
- 특정 변수가 주어졌을 때 클래스가 어떻게 분류되는지에 대한 에러율을 계산해주고 , 그래픽으로 결과를 보여주는 기능을 한다.
- greedy.wilks() : 세분화를 위한 stepwise forward 변수선택을 위한 패키지 , 종속변수에 가장 영향력을 미치는 변수를 wilks lambda를 활용하여 변수의 중요도를 정리
( wilk's lambda = 집단내분산 / 총분산 )
3. 변수의 구간화
가. 개요
- 연속형 변수를 분석 목적에 맞게 활용하기 위해 구간화하여 모델링에 적용한다.
# 일반적으로 10진수 단위로 구간화하지만 , 구간을 5개로 나누는 것이 보통이며 , 7개 이상의 구간을 잘 만들지 않는다.
- 신용평가모형 , 고객 세분화와 같은 시스템에서 모형에 활용하는 각 변수들을 구간화해서 구간별로 점수를 적용하는 스코어링 방식으로 많이 활용되고 있다.
나. 구간화 방법
1) binning
- 신용평가모형의 개발에서 연속형 변수 ( 부채비율 등 ) 를 범주형 변수로 구간화 하는데 자주 활용되고 있는 방법이다.
2) 의사결정나무
- 세분화 또는 예측에 활용되는 의사결정나무 모형을 사용하여 입력변수들을 구간화 할 수 있다. 의사결정나무에서는 동일한 변수를 여러 번의 분리기준으로 사용이 가능하기 때문에 연속변수가 반복적으로 선택될 경우 , 각각의 분리 기준값으로 연속형 변수를 구간화 할 수 있다.
'자격증 > ADSP' 카테고리의 다른 글
데이터 분석 준전문가(adsp) - 통계분석의 이해 (0) | 2020.02.01 |
---|---|
데이터 분석 준전문가(adsp) - 기초 분석 및 데이터 관리 (0) | 2020.02.01 |
데이터 분석 준전문가(adsp) - 데이터 마트 (0) | 2020.01.30 |
데이터 분석 준전문가(adsp) - 데이터 변형 (0) | 2020.01.30 |
데이터 분석 준전문가(adsp) - 데이터 구조와 데이터 프레임 - 2 (0) | 2020.01.28 |
#IT #먹방 #전자기기 #일상
#개발 #일상