1.데이터 처리
가. 개요
- 데이터분석은 통계에 기반을 두고 있지만 , 통계지식과 복잡한 가정이 상대적으로 적은 실용적인 분야이다.
나. 활용
- 대기업은 데이터웨어하우스 ( DW ) 와 데이터마트 ( DM ) 를 통해 분석 데이터를 가져와서 사용한다.
- 신규 시스템이나 DW에 포함되지 못한 자료의 경우 , 기존 운영시스템 ( Legacy ) 이나 스테이징영역 (staging area) 과 ODS ( Operation Data Store ) 에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용할 수 있다.
- 하지만 운영시스템에 직접 접근해 데이터를 활용하는 것은 매우 위험한 일이므로 거의 이루어지지 않고 있으며 , 스테이징 영역 ( Staging Area ) 의 데이터는 운영시스템에서 임시로 저장된 데이터이기 때문에 가급적이면 클린징 영역인 ODS에서 데이터의 전처리를 해서 DW나 DM과 결합하여 활용하는 것이 가장 이상적이다.
다. 최종 데이터 구조로 가공
1) 데이터마이닝 분류
- 분류값과 입력변수들을 연관시켜 인구통계 , 요약변수 , 파생변수 등을 산출한다.
2) 비정형화된 패턴 처리
- 비정형 데이터나 소셜 데이터는 정형화된 패턴으로 처리해야 한다.
가 ) 비정형 데이터
- DBMS 에 저장됐다가 텍스트 마이닝을 거쳐 데이터 마트와 통합된다.
나 ) 관계형 데이터
- DBMS에 저장되어 사회 신경망분석을 거쳐 분석결과 통계값이 마트와 통합되어 활용된다.
2.시각화 ( 시각화 그래프 )
- 시각화는 가장 눚은 수준의 분석이지만 잘 사용하면 복잡한 분석보다도 더 효율적이다.
- 대용량 데이터를 다루는 빅데이터 분석에서 시각화는 필수이다.
- 탐색적 분석을 할 때 시각화는 필수이다.
- SNA 분석 ( 사회연결망 분석 ) 을 할 때 자주 활용된다.
3. 공간분석 ( GIS )
- 공간분석 ( Spatial Analysis ) 은 공간적 차원과 관련된 속성들을 시각화하는 분석이다.
- 지도 위에 관련 속성들을 생성하고 크기 , 모양 , 선 굵기 등으로 구분하여 인사이트를 얻는다.
4. 탐색적 자료 분석 ( EDA )
가.개요
- 탐색적 분석은 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정으로 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭이다
나.EDA의 4가지 주제
- 저항성의 강조 , 잔차 계산 , 자료변수의 재표현 , 그래프를 통한 현시성
다.탐색적 분석의 효율 예
- 2과목 모형개발 프로세스 ( KDD , CRSIP-DM 등 ) 에서 언급한 바와 같이 데이터이해 단계 ( 변수의 분포와 특성 파악 ) 와 변수생성 단계 ( 분석목적에 맞는 주요한 요약 및 파생변수 생성 ) 그리고 변수선택 단계 ( 목적변수에 의미있는 후보 변수 선택 ) 에서 활용되고 있다.
5. 통계분석
가. 통계
- 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체ㅖ에 따라 숫자와 표 , 그림의 형태로 나타내는 것이다.
나. 기술통계 ( descriptive statistics )
- 모집단으로부터 표본을 추출하고 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약하기 위해 하나의 숫자 또는 그래프의 형태로 표현하는 절차이다.
다. 추측 ( 추론 ) 통계 ( inferential statistics )
- 모집단으로부터 추출된 표본의 표본통계량으로 부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차이다.
라. 활용분야
- 정부의 경제정책 수립과 평가의 근거자료로 활용
- 농업
- 의학
- 경영
-스포츠
6.데이터마이닝
가. 개요
- 대표적인 고급 데이터 분석법으로 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴 , 규칙 등을 탐색하고 이를 모형화함으로써 이전에 알려지지 않은 유용한 지식을 추출하는 분석 방법이다.
나. 방법론
- 데이터베이스에서의 지식탐색 : 데이터웨어하우스에서 데이터마트를 생성하면서 각 데이터들의 속성을 사전분석을 통해 지식을 얻는 방법이다.
- 기계학습(machine learning) : 인공지능의 한 분야로 , 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야로 인공신경망 , 의사결정나무 , 클러스터링 , 베이지안 분류 , SVM 등이 있다.
- 패턴인식 ( pattern recognition ) : 원자료를 이용해서 사전지식과 패턴에서 추출된 통계 정보를 기반으로 자료 또는 패턴을 분류하는 방법으로 장바구니분석 , 연관규칙 등이 있다.
다. 활용분야
- 데이터베이스 마케팅 ( 방대한 고객의 행동정보를 활용해 목표 마케팅 , 고객세분화 , 장바구니 분석 , 추천시스템 등 )
- 신용평가 및 조기경보시스템 ( 금융기관에서 신용카드 발급 , 보험 , 대출 발생시 업무에 적용 )
- 생물정보학 ( 세포의 수많은 유전자를 분석하여 질병의 진단과 치료법 또는 신약 개발 )
- 텍스트마이닝 ( 전자우편 , SNS 등 디지털 텍스트 정보를 통해 고객성향분석 , 감성분석 , 사회관계망분석 등 )
'자격증 > ADSP' 카테고리의 다른 글
데이터 분석 준전문가(adsp) - R 기초 - 1 (0) | 2020.01.22 |
---|---|
데이터 분석 준전문가(adsp) - R 소개 (0) | 2020.01.21 |
데이터 분석 준전문가(adsp) - 분석 거버넌스 체계 수립 (0) | 2020.01.20 |
데이터 분석 준전문가(adsp) - 분석 마스터 플랜 (0) | 2020.01.20 |
데이터 분석 준전문가(adsp) - 분석 프로젝트 관리 방안 (0) | 2020.01.17 |
#IT #먹방 #전자기기 #일상
#개발 #일상