데이터 분석 준전문가(adsp) - 정형 데이터 마이닝
1. 데이터마이닝
가. 개요
- 데이터마이닝은 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다.
나. 통계분석과의 차이점
- 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다.
다. 종류
정보를 찾는 방법론에 따른 종류
- 인공지능 ( Artificial Intelligence )
- 의사결정나무 ( Decision Tree )
- K - 평균군집화 ( K-means Clustering )
- 연관분석 ( Association Rule )
- 회귀분석 ( Regression )
- 로짓분석 ( Logit Analysis )
- 최근접이웃 ( Nearest Neighborhood )
분석대상 , 활용목적 , 표현방법에 따른 분류
- 시각화분석 ( Visualization Analysis )
- 분류 ( Classification )
- 군집화 ( Clustering )
- 포케스팅 ( Forecasting )
라. 사용분야
- 병원에서 환자 데이터를 이용해서 해당 환자에게 발생 가능성이 높은 병을 예측
- 기존 환자가 응급실에 왔을 때 어떤 조치를 먼저 해야 하는지를 결정
- 고객 데이터를 이용해 해당 고객의 우량/불량을 예측해 대출적격 여부 판단
- 세관 검사에서 입국자의 이력과 데이터를 이용해 관세물품 반입 여부를 예측
마. 데이터마이닝의 최근환경
- 데이터마이닝 도구가 다양하고 체계화되어 환경에 적합한 제품을 선택하여 활용 가능하다.
- 알고리즘에 대한 깊은 이해가 없어도 분석에 큰 어려움이 없다.
- 분석 결과의 품질은 분석가의 경험과 역량에 따라 차이가 나기 때문에 분석 과제의 복잡성이나 중요도가 높으면 풍부한 경험을 가진 전문가에게 의뢰할 필요가 있따.
- 국내에서 데이터마이닝이 적용된 시기는 1990년대 중반이다.
- 2000년대에 비즈니스 관점에서 데이터마이닝이 CRM의 중요한 요소로 부각되었다.
- 대중화를 위해 많은 시도가 있었으나 , 통계학 전문가와 대기업 위주로 진행되었다.
2. 데이터마이닝의 분석 방법
Supervised Data Prediction ( 지도학습 )
- 의사결정나무 ( Decision Tree )
- 인공신경망 ( ANN , Artificial Neural Network )
- 일반화 선형 모형 ( GLM , Generalized Linear Model )
- 회귀분석 ( Regression Analysis )
- 로지스틱 회귀분석 ( Logistic Regression Analysis )
- 사례기반 추론 ( Case - Based Reasoning )
- 최근접 이웃법 ( KNN , K - Nearest Neighbor )
Unsupervised Data Prediction ( 비지도학습 )
- OLAP ( On-Line Analytical Processing )
- 연관성 규칙발견 ( Association Rule Discovery , Market Basket )
- 군집분석 ( K-Means Clustering )
- SOM ( Self Organizing Map )
3. 분석 목적에 따른 작업 유형과 기법
예측 ( Predictive Modeling ) : 분류 규칙 ( Classification ) --> 가장 많이 사용되는 작업으로 과거의 데이터로부터 고객특성을 찾아내어 분류모형을 만들어 이를 토대로 새로운 레코드의 결과값을 예측하는 것으로 목표 마케팅 및 고객 신용평가 모형에 활용된다.
(Ex) 회귀분석 , 판별분석 , 신경망 , 의사결정나무
설명 ( Descriptive Modeling ) : 연관규칙 ( Association ) --> 데이터 안에 존재하는 항목간의 종속관계를 찾아내는 작업으로 제품이나 서비스의 교차판매 ( Cross Selling ) , 매장진열 ( Display ) , 첨부우편 ( Attached Mailings ) , 사기적발 ( Fraud Detection ) 등의 다양한 분야에 활용된다 .
(Ex) 동시발생 매트릭스
설명 ( Descriptive Modeling ) : 연속규칙 ( Sequence ) --> 연관 규칙에 시간관련 정보가 포함된 형태로 , 고객의 구매이력 ( History ) 속성이 반드시 필요하며 , 목표 마케팅 ( Target Marketing ) 이나 일대일 마케팅 ( One to One Marketing ) 에 활용된다
(Ex) 동시발생 매트릭스
데이터 군집화 ( Clustering ) : 고객 레코드들을 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업으로 작업의 특성이 분류규칙 ( Classification ) 과 유사하나 분석대상 데이터에 결과 값이 없으며 , 판촉활동이나 이벤트 대상을 선정하는데 활용된다
(Ex) K-Means Clustering
4.데이터마이닝 추진단계
가. 1단계 : 목적 설정
- 데이터마이닝을 통해 무엇을 왜 하는지 명확한 목적 ( 이해관계자 모두 동의하고 이해할 수 있는 ) 을 설정한다.
- 전문가가 참여해 목적에 따라 사용할 모델과 필요한 데이터를 정의한다.
나. 2단계 : 데이터 준비
- 고객정보 , 거래정보 , 상품 마스터정보 , 웹로그 데이터 , 소셜 네트워크 데이터 등 다양한 데이터를 활용한다.
- IT 부서와 사전에 협의하고 일정을 조율하여 데이터 접근 부하에 유의하여야 하며 , 필요시 다른 서버에 저장하여 운영에 지장이 없도록 데이터를 준비한다.
- 데이터 정제를 통해 데이터의 품질을 보장하고 , 필요시 데이터를 보강하여 충분한 양의 데이터를 확보한다.
다. 3단계 : 가공
- 모델링 목적에 따라 목적 변수를 정의한다.
- 필요한 데이터를 데이터마이닝 소프트웨어에 적용할 수 있는 형식으로 가공한다.
라. 4단계 : 기법 적용
- 1단계에서 명확한 목적에 맞게 데이터마이닝 기법을 적용하여 정보를 추출한다.
마. 5단계 : 검증
- 데이터마이닝으로 추출된 정보를 검증한다.
- 테스트 데이터와 과거 데이터를 활용하여 최적의 모델을 선정한다.
- 검증이 완료되면 IT부서와 협의해 상시 데이터마이닝 결과를 업무에 적용하고 보고서를 작성하여 추가수익과 투자대비성과(ROI) 등으로 기대효과를 전파한다.
5. 데이터마이닝을 위한 데이터 분할
가. 개요
- 모델 평가용 테스트 데이터와 구축용 데이터로 분할하여 구축용 데이터로 모형을 생성하고 테스트 데이터로 모형이 얼마나 적합한지를 판단한다.
나. 데이터 분할
1) 구축용 ( Training data , 50 % )
- 추정용 , 훈련용 데이터라고도 불리며 데이터마이닝 모델을 만드는데 활용한다.
2) 검정용 ( validation data , 30 % )
- 구축된 모형의 과대추정 또는 과소추정을 미세 조정을 하는데 활용한다.
3) 시험용 (test data , 20 % )
- 테스트 데이터나 과거 데이터를 활용하여 모델의 성능을 검증하는데 활용한다.
4) 데이터의 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우
가) 홀드아웃(hold-out) 방법 : 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법으로 주로 학습용 ( training data ) 과 시험용 ( test data ) 로 분리하여 사용한다.
나) 교차확인(cross-validation) 방법 : 주어진 데이터를 k개의 하부집단으로 구분하여 , k -1 개의 집단을 학습용으로 나머지는 하부 집단으로 검증용으로 설정하여 학습한다. k번 반복 측정한 결과를 평균낸 값을 최종값으로 사용한다. 주로 10-fold 교차분석을 많이 사용한다.
나. ROCR 패키지로 성과분석
1) ROC Curve ( Receiver Operating Characteristic Curve )
- ROC Curve 란 가로축을 FPR ( False Positive Rate = 1 - 특이도 ) 값으로 두고 , 세로축을 TPR ( True Positive Rate , 민감도 ) 값으로 두어 시각화한 그래프이다.
- 2진 분류 ( binary classfication ) 에서 모형의 성능을 평가하기 위해 많이 사용되는 척도이다.
- 그래프가 왼쪽 상단에 가깝게 그려질수록 올바르게 예측한 비율은 높고 , 잘못 예측한 비율은 낮음을 의미한다. 따라서 ROC곡선 아래의 면적을 의미하는 AUROC ( Area Under ROC ) 값이 크면 클수록 ( 1에 가까울수록 ) 모형의 성능이 좋다고 평가한다.
- TPR ( True Positive Rate , 민감도 ) : 1인 케이스에 대한 1로 예측한 비율
- FPR ( False Positive Rate , 1 - 특이도 ) : 0 인 케이스에 대한 1로 잘못 예측한 비율
- AUROC ( Area Under ROC ) 를 이용한 정확도의 판단기준
0.9 ~ 1.0 : excellent ( A )
0.8 ~ 0.9 : good
0.7 ~ 0.8 : fair
0.6 ~ 0.7 : poor
0.5 ~ 0.6 : fail
다. 이익도표 ( Lift chart )
1) 이익도표의 개념
- 이익도표는 분류모형의 성능을 평가하기 위한 척도로 , 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율 , 반응률 , 리프트 등의 정보를 산출하여 나타내는 도표이다.
- 2000명의 전체고객 중 381명이 상품을 구매한 경우에 대해 이익도표를 만드는 과정을 예로 들어보면 , 먼저 데이터셋의 각 관측치에 대한 예측확률을 내림차순으로 정렬한다.이후 데이터를 10개의 구간으로 나눈 다음 각 구간의 반응율 ( % response ) 을 산출한다. 또한 기본 향상도 ( baseline lift ) 에 비해 반응률이 몇 배나 높은지를 계산하는데 이것을 향상도 (Lift) 라고 한다.
- 이익도표의 각 등급은 예측확률에 따라 매겨진 순위이기 때문에 , 상위 등급에서는 더 높은 반응률을 보이는 것이 좋은 모형이라고 평가할 수 있다.
- 등급별로 향상도가 급격하게 변동할수록 좋은 모형이라고 할 수 있고 , 각 등급별로 향상도가 들쭉날쭉하면 좋은 모형이라고 볼 수 없다.
# 과적합 - 과대적합 - 과소적합의 개념
과적합 - 과대적합 ( Overfitting ) : 모형이 학습용 데이터 ( training data ) 를 과하게 학습하여 , 학습 데이터에 대해서는 높은 정확도를 나타내지만 , 테스트 데이터 혹은 다른 데이터에 적용할 때는 성능이 떨어지는 현상을 의미한다.
과소적합 ( Underfitting ) : 모형이 너무 단순하여 데이터 속에 내제되어 있는 패턴이나 규칙을 제대로 학습하지 못하는 경우를 의미한다.
과소적합 : size가 증가함에 따라 price도 증가하는 것은 잘 표현했지만 데이터의 특징을 정확하게 설명하지 못하고 지나치게 일반화했다고 볼 수 있다.
일반화 ( generalization ) : 데이터의 특징은 잘 설명하면서도 지나치게 학습하지 않았기 때문에 새로운 데이터를 입력하였을 때도 좋은 성능을 나타낼 수 있따.
과대적합 : 각각의 데이터를 너무 정확하게 설명하였기 때문에 새로운 데이터에 해당 모형을 적용 시킨다면 일반화가 힘들어 예측에 실패할 수 있다.