자격증/ADSP

데이터 분석 준전문가(adsp) - 정형 데이터 마이닝

IT grow. 2020. 2. 11. 15:36
반응형

1. 데이터마이닝

 

가. 개요

- 데이터마이닝은 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다.

 

나. 통계분석과의 차이점 

- 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다.

 

 

다. 종류 

 

정보를 찾는 방법론에 따른 종류 

- 인공지능 ( Artificial Intelligence ) 

- 의사결정나무 ( Decision Tree ) 

- K - 평균군집화 ( K-means Clustering ) 

- 연관분석 ( Association Rule ) 

- 회귀분석 ( Regression ) 

- 로짓분석 ( Logit Analysis ) 

- 최근접이웃 ( Nearest Neighborhood ) 

 

분석대상 , 활용목적 , 표현방법에 따른 분류 

- 시각화분석 ( Visualization Analysis ) 

- 분류 ( Classification ) 

- 군집화 ( Clustering ) 

- 포케스팅 ( Forecasting ) 

 

 

라. 사용분야 

- 병원에서 환자 데이터를 이용해서 해당 환자에게 발생 가능성이 높은 병을 예측

- 기존 환자가 응급실에 왔을 때 어떤 조치를 먼저 해야 하는지를 결정

- 고객 데이터를 이용해 해당 고객의 우량/불량을 예측해 대출적격 여부 판단 

- 세관 검사에서 입국자의 이력과 데이터를 이용해 관세물품 반입 여부를 예측 

 

마. 데이터마이닝의 최근환경 

- 데이터마이닝 도구가 다양하고 체계화되어 환경에 적합한 제품을 선택하여 활용 가능하다.

- 알고리즘에 대한 깊은 이해가 없어도 분석에 큰 어려움이 없다.

- 분석 결과의 품질은 분석가의 경험과 역량에 따라 차이가 나기 때문에 분석 과제의 복잡성이나 중요도가 높으면 풍부한 경험을 가진 전문가에게 의뢰할 필요가 있따.

- 국내에서 데이터마이닝이 적용된 시기는 1990년대 중반이다.

- 2000년대에 비즈니스 관점에서 데이터마이닝이 CRM의 중요한 요소로 부각되었다.

- 대중화를 위해 많은 시도가 있었으나 , 통계학 전문가와 대기업 위주로 진행되었다.

 

 

2. 데이터마이닝의 분석 방법 

 

Supervised Data Prediction ( 지도학습 ) 

 

- 의사결정나무 ( Decision Tree ) 

- 인공신경망 ( ANN , Artificial Neural Network ) 

- 일반화 선형 모형 ( GLM , Generalized Linear Model ) 

- 회귀분석 ( Regression Analysis ) 

- 로지스틱 회귀분석 ( Logistic Regression Analysis ) 

- 사례기반 추론 ( Case - Based Reasoning ) 

- 최근접 이웃법 ( KNN , K - Nearest Neighbor ) 

 

Unsupervised Data Prediction ( 비지도학습 ) 

- OLAP ( On-Line Analytical Processing ) 

- 연관성 규칙발견 ( Association Rule Discovery , Market Basket ) 

- 군집분석 ( K-Means Clustering ) 

- SOM ( Self Organizing Map ) 

 

 

3. 분석 목적에 따른 작업 유형과 기법 

 

예측 ( Predictive Modeling ) : 분류 규칙 ( Classification ) --> 가장 많이 사용되는 작업으로 과거의 데이터로부터 고객특성을 찾아내어 분류모형을 만들어 이를 토대로 새로운 레코드의 결과값을 예측하는 것으로 목표 마케팅 및 고객 신용평가 모형에 활용된다.

(Ex) 회귀분석 , 판별분석 , 신경망 , 의사결정나무 

 

설명 ( Descriptive Modeling ) : 연관규칙 ( Association ) --> 데이터 안에 존재하는 항목간의 종속관계를 찾아내는 작업으로 제품이나 서비스의 교차판매 ( Cross Selling ) , 매장진열 ( Display ) , 첨부우편 ( Attached Mailings ) , 사기적발 ( Fraud Detection ) 등의 다양한 분야에 활용된다 .

(Ex) 동시발생 매트릭스

 

설명 ( Descriptive Modeling ) : 연속규칙 ( Sequence ) --> 연관 규칙에 시간관련 정보가 포함된 형태로 , 고객의 구매이력 ( History ) 속성이 반드시 필요하며 , 목표 마케팅 ( Target Marketing ) 이나 일대일 마케팅 ( One to One Marketing ) 에 활용된다 

(Ex) 동시발생 매트릭스 

 

데이터 군집화 ( Clustering ) : 고객 레코드들을 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업으로 작업의 특성이 분류규칙 ( Classification ) 과 유사하나 분석대상 데이터에 결과 값이 없으며 , 판촉활동이나 이벤트 대상을 선정하는데 활용된다 

(Ex) K-Means Clustering 

 

4.데이터마이닝 추진단계 

 

가. 1단계 : 목적 설정 

- 데이터마이닝을 통해 무엇을 왜 하는지 명확한 목적 ( 이해관계자 모두 동의하고 이해할 수 있는 ) 을 설정한다.

- 전문가가 참여해 목적에 따라 사용할 모델과 필요한 데이터를 정의한다.

 

나. 2단계 : 데이터 준비 

 

- 고객정보 , 거래정보 , 상품 마스터정보 , 웹로그 데이터 , 소셜 네트워크 데이터 등 다양한 데이터를 활용한다.

- IT 부서와 사전에 협의하고 일정을 조율하여 데이터 접근 부하에 유의하여야 하며 , 필요시 다른 서버에 저장하여 운영에 지장이 없도록 데이터를 준비한다.

- 데이터 정제를 통해 데이터의 품질을 보장하고 , 필요시 데이터를 보강하여 충분한 양의 데이터를 확보한다.

 

 

다. 3단계 : 가공 

- 모델링 목적에 따라 목적 변수를 정의한다.

- 필요한 데이터를 데이터마이닝 소프트웨어에 적용할 수 있는 형식으로 가공한다.

 

 

라. 4단계 : 기법 적용 

- 1단계에서 명확한 목적에 맞게 데이터마이닝 기법을 적용하여 정보를 추출한다.

 

 

마. 5단계 : 검증 

- 데이터마이닝으로 추출된 정보를 검증한다.

- 테스트 데이터와 과거 데이터를 활용하여 최적의 모델을 선정한다.

- 검증이 완료되면 IT부서와 협의해 상시 데이터마이닝 결과를 업무에 적용하고 보고서를 작성하여 추가수익과 투자대비성과(ROI) 등으로 기대효과를 전파한다.

 

 

5. 데이터마이닝을 위한 데이터 분할 

 

가. 개요 

 

- 모델 평가용 테스트 데이터와 구축용 데이터로 분할하여 구축용 데이터로 모형을 생성하고 테스트 데이터로 모형이 얼마나 적합한지를 판단한다.

 

나. 데이터 분할 

 

1) 구축용 ( Training data , 50 % ) 

- 추정용 , 훈련용 데이터라고도 불리며 데이터마이닝 모델을 만드는데 활용한다.

 

2) 검정용 ( validation data , 30 % ) 

- 구축된 모형의 과대추정 또는 과소추정을 미세 조정을 하는데 활용한다.

 

3) 시험용 (test data , 20 % ) 

- 테스트 데이터나 과거 데이터를 활용하여 모델의 성능을 검증하는데 활용한다.

 

4) 데이터의 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우 

 

가) 홀드아웃(hold-out) 방법 : 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법으로 주로 학습용 ( training data ) 과 시험용 ( test data ) 로 분리하여 사용한다.

 

나) 교차확인(cross-validation) 방법 : 주어진 데이터를 k개의 하부집단으로 구분하여 , k -1 개의 집단을 학습용으로 나머지는 하부 집단으로 검증용으로 설정하여 학습한다. k번 반복 측정한 결과를 평균낸 값을 최종값으로 사용한다. 주로 10-fold 교차분석을 많이 사용한다.

 

 

나. ROCR 패키지로 성과분석 

 

1) ROC Curve ( Receiver Operating Characteristic Curve ) 

 

- ROC Curve 란 가로축을 FPR ( False Positive Rate = 1 - 특이도 ) 값으로 두고 , 세로축을 TPR ( True Positive Rate , 민감도 ) 값으로 두어 시각화한 그래프이다.

 

- 2진 분류 ( binary classfication ) 에서 모형의 성능을 평가하기 위해 많이 사용되는 척도이다.

- 그래프가 왼쪽 상단에 가깝게 그려질수록 올바르게 예측한 비율은 높고 , 잘못 예측한 비율은 낮음을 의미한다. 따라서 ROC곡선 아래의 면적을 의미하는 AUROC ( Area Under ROC ) 값이 크면 클수록 ( 1에 가까울수록 ) 모형의 성능이 좋다고 평가한다.

 

- TPR ( True Positive Rate , 민감도 ) : 1인 케이스에 대한 1로 예측한 비율 

 

- FPR ( False Positive Rate , 1 - 특이도 ) : 0 인 케이스에 대한 1로 잘못 예측한 비율 

 

- AUROC ( Area Under ROC ) 를 이용한 정확도의 판단기준 

 

0.9 ~ 1.0 : excellent ( A ) 

0.8 ~ 0.9 : good 

0.7 ~ 0.8 : fair 

0.6 ~ 0.7 : poor 

0.5 ~ 0.6 : fail 

 

 

다. 이익도표 ( Lift chart ) 

 

1) 이익도표의 개념 

- 이익도표는 분류모형의 성능을 평가하기 위한 척도로 , 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율 , 반응률 , 리프트 등의 정보를 산출하여 나타내는 도표이다.

 

- 2000명의 전체고객 중 381명이 상품을 구매한 경우에 대해 이익도표를 만드는 과정을 예로 들어보면 , 먼저 데이터셋의 각 관측치에 대한 예측확률을 내림차순으로 정렬한다.이후 데이터를 10개의 구간으로 나눈 다음 각 구간의 반응율 ( % response ) 을 산출한다. 또한 기본 향상도 ( baseline lift ) 에 비해 반응률이 몇 배나 높은지를 계산하는데 이것을 향상도 (Lift) 라고 한다.

 

- 이익도표의 각 등급은 예측확률에 따라 매겨진 순위이기 때문에 , 상위 등급에서는 더 높은 반응률을 보이는 것이 좋은 모형이라고 평가할 수 있다.

 

- 등급별로 향상도가 급격하게 변동할수록 좋은 모형이라고 할 수 있고 , 각 등급별로 향상도가 들쭉날쭉하면 좋은 모형이라고 볼 수 없다.

 

 

# 과적합 - 과대적합 - 과소적합의 개념 

 

과적합 - 과대적합 ( Overfitting ) : 모형이 학습용 데이터 ( training data ) 를 과하게 학습하여 , 학습 데이터에 대해서는 높은 정확도를 나타내지만 , 테스트 데이터 혹은 다른 데이터에 적용할 때는 성능이 떨어지는 현상을 의미한다.

 

과소적합 ( Underfitting ) : 모형이 너무 단순하여 데이터 속에 내제되어 있는 패턴이나 규칙을 제대로 학습하지 못하는 경우를 의미한다.

 

 

과소적합 : size가 증가함에 따라 price도 증가하는 것은 잘 표현했지만 데이터의 특징을 정확하게 설명하지 못하고 지나치게 일반화했다고 볼 수 있다.

 

일반화 ( generalization ) : 데이터의 특징은 잘 설명하면서도 지나치게 학습하지 않았기 때문에 새로운 데이터를 입력하였을 때도 좋은 성능을 나타낼 수 있따.

 

과대적합 : 각각의 데이터를 너무 정확하게 설명하였기 때문에 새로운 데이터에 해당 모형을 적용 시킨다면 일반화가 힘들어 예측에 실패할 수 있다.

 

 

 

반응형