데이터 분석 준전문가(adsp) - 분석 프로젝트 관리 방안
1.분석과제 관리를 위한 5가지 주요 영역
- 과거 형태로 도출된 분석기회는 프로젝트를 통해서 그 가치를 증명하고 목표를 달성해야 한다. 분석프로젝트는 다른 프로젝트 유형처럼 범위,일정,품질,리스크,의사소통 등 영역별 관리가 수행되어야 할 뿐 아니라 다양한 데이터에 기반한 분석기법을 적용하는 특성 때문에 5가지의 주요 속성을 고려한 추가적인 관리가 필요하다 .
Data Complexity + Data Size + Speed + Analytic Complexity + Accuracy & Precision
Data Complexity : BI ( Business Intelligence ) 프로젝트처럼 정형 데이터가 분석 마트로 구성되어 있는 상태에서 분석을 하는 것과 달리 텍스트 , 오디오 , 비디오 등의 비정형 데이터 및 다양한 시스템에 산재되어 있는 원천 데이터들을 통합해서 분석 프로젝트를 진행 할 때는 , 초기 데이터의 확보와 통합뿐 아니라 해당 데이터에 잘 적용될 수 있는 분석 모델의 선정 등에 대한 사전 고려가 필요하다.
Data Size : 분석하고자 하는 데이터의 양을 고려한 관리 방안 수립이 필요하다. 하둡 환경에서의 엄청난 데이터양을 기반으로 분석하는 것과 기존 정형 데이터베이스에 있는 시간 당 생성되는 데이터를 분석할 때의 관리방식은 차이가 날 수 밖에 없다.
Speed : 분석결과가 도출되었을 때 이를 활용하는 시나리오 측면에서의 속도를 고려해야 한다. 일 단위 , 주 단위 실적의 경우에는 배치 ( Batch ) 형태로 작업되어도 무방하지만 실시간으로 사기 ( Fraud ) 를 탐지하거나 고객에게 개인화된 상품 , 서비스를 추천하는 경우에는 분석 모델의 적용 및 계산이 실시간으로 수행되어야하기 때문에 프로젝트 수행 시 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 한다.
Analytic Complexity : 분석 모델의 정확도와 복잡도는 트레이드오프 ( Trade off ) 관계가 존재한다. 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재하므로 이에 대한 기준점을 사전에 정의해 두어야 한다. 고객의 신용을 평가하는 마케팅 시나리오에서 분석모델을 활용하여 신용점수가 낮게 나올 때 어떠한 변수에 기인했는지를 모델에서 설명해 줄 수 없으면 영업 마케팅 직원 입장에서는 해당 고객과의 소통이 어려워지는 단점이 존재하므로 해석이 가능하면서도 정확도를 올릴 수 있는 최적모델을 찾는 방안을 사전에 모색해야 한다.
Accuracy & Precision : Accuracy는 모델과 실제 값 사이의 차이가 적다는 정확도를 의미하고 Precision은 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미한다. 분석의 활용적인 측면에서는 Accuracy가 중요하며 , 안정성 측면에서는 Precision이 중요하다. 그러나 Accuracy와 Precision은 트레이드오프가 되는 경우가 많기 때문에 모델의 해석 및 적용 시 사전에 고려해야 한다.
2. 분석 프로젝트의 특성
가. 개요
- 분석가의 목표 : 분석의 정확도를 높이는 것이지만 프로젝트의 관점에서는 도출된 분석 과제를 잘 구현하여 원하는 결과를 얻고 사용자가 원할하게 활용할 수 있도록 전체적인 과정을 고려해야하기 때문에 개별적인 분석 업무 수행뿐만 아니라 전반적인 프로세스 관리 또한 중요하다 .
-분석가의 입장 : 데이터의 원천을 다루는 데이터 영역과 결과를 활용할 비즈니스 영역의 중간에서 분석 모델을 통한 조율을 수행하는 조정자의 역할이 핵심이 된다. 특히 분석 프로젝트에서는 데이터 영역과 비즈니스 영역의 현황을 이해하고 프로젝트의 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가의 역할이 중요하다. 조정자로서의 분석가가 해당 프로젝트의 관리자까지 겸임하게 되는 경우가 대부분이므로 프로젝트 관리방안에 대한 이해와 주요 관리 포인트를 사전에 숙지하는 것이 필수적이다.
-분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 , 프로토타이핑 방식의 어자일 ( Agile ) 프로젝트 관리방식에 대한 고려도 필요하다. 데이터 분석의 지속적인 반복 및 개선을 통하여 의도했던 결과에 더욱 가까워지는 형태로 프로젝트가 진행될수록 적절한 관리 방안 수집이 사전에 필요하다.
- 분석 프로젝트는 데이터 영역과 비즈니스 영역에 대한 이해뿐만 아니라 지속적인 반복이 요구되는 분석 프로세스의 특성을 이해한 프로젝트 관리방안을 수립하느 것이 중요하다.
- 분석 과제정의서를 기반으로 프로젝트를 시작하되 지속적인 개선 및 변경을 염두에 두고 기간내에 가능한 최선의 결과를 도출할 수 있도록 프로젝트 구성원들과 협업하는 것이 분석 프로젝트의 특징이다.
3. 분석 프로젝트의 관리방안
- 분석 프로젝트의 영역별 주요 관리 항목과 내용은 아래와 같다.
범위 ( Scope ) : 분석 기획단계의 프로젝트 범위가 분석을 진행하면서 데이터의 형태와 양 또는 적용되는 모델의 알고리즘에 따라 범위가 빈번하게 변경된다. 분석의 최종 결과물이 분석 보고서 형태인지 시스템인지에 따라서 투입되는 자원 및 범위 또한 크게 변경되므로 사전에 충분한 고려가 필요하다.
시간 ( Time ) : 데이터 분석 프로젝트는 초기에 의도했던 결과(모델)가 나오기 쉽지 않기 때문에 지속적으로 반복되어 많은 시간이 소요될 수 있음 , 분석 결과에 대하 품질이 보장된다는 전제로 Time Boxing 기법으로 일정관리를 진행하는 것이 필요하다
원가 ( Cost ) : 외부 데이터를 활용한 데이터 분석인 경우 고가의 비용이 소요될 수 있으므로 사전에 충분한 조사가 필요하다. 오픈 소스 도구 ( Tool ) 외에 프로젝트 수행 시 의도했던 결과를 달성하기 위하여 상용 버전의 도구 ( Tool ) 가 필요할 수 있음
(Ex) 가시화를 위한 BI 솔루션 , 지리정보 표기를 위한 GIS 솔루션 등
품질 ( Quality ) : 분석 프로젝트를 수행한 결과에 대한 품질 목표를 사전에 수립하여 확정해야 함 , 프로젝트 품질은 품질 통제 ( Quality Control ) 와 품질보증 ( Quality Assurance ) 으로 나누어 수행되어야 한다.
통합 ( Integration ) : 프로젝트 관리 프로세스들이 통합적으로 운영될 수 있또록 관리해야 한다.
조달 ( Procurement ) : 프로젝트 목적성에 맞는 외부 소싱을 적절하게 운영할 필요가 있음 , PoC ( Proof of Concept ) 형태의 프로젝트는 인프라 구매가 아닌 클라우드 등의 다양한 방안을 검토할 필요가 있음
자원 ( Resource ) : 고급 분석 및 빅데이터 아키텍쳐링을 수행할 수 있는 인력의 공급이 부족하므로 프로젝트 수행 전 전문가 확보에 대한 검토가 필요하다.
리스크 ( Risk ) : 분석에 필요한 데이터 미확보로 분석 프로젝트 진행이 어려울 수 있으므로 관련 위험을 식별하고 대응방안을 사전에 수립해야 한다. 데이터 및 분석 알고리즘의 한계로 품질 목표를 달성하기 어려울 수 있어 그에 따른 대응방안을 수립할 필요가 있음
의사소통 : 전문성이 요구되는 데이터 분석의 결과를 모든 프로젝트 이해관계자가 공유할 수 있도록 해야함 , 프로젝트의 원할한 진행을 위한 다양한 의사소통체계 마련이 필요하다.
이해관계자 ( Stakeholder ) : 데이터 분석 프로젝트는 데이터 전문가 , 비즈니스 전문가 , 분석 전문가 , 시스템 저눈가 등 다양한 전문가가 참여하므로 이해관계자의 식별과 관리가 필요하다.
- 분석가가 분석 프로젝트에서 프로젝트 관리자의 역할을 수행하는 경우가 대부분이기 떄문에 프로젝트 관리 영역에 대한 주요한 사항들을 체크포인트 형태로 관리해서 발생할 수 있는 이슈와 리스크를 숙지하고 미연에 방지할 필요가 있다.