1. R reshape를 이용한 데이터 마트 개발
가.데이터 마트
- 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있다.
- 데이터 마트 내 대부분의 데이터는 데이터 웨어하우스로부터 복제되지만 , 자체적으로 수집될 수도 있으며 관계형 데이터 베이스나 다차원 데이터 베이스를 이용하여 구축 한다.
- CRM ( customer relationship management) 관련 업무 중에서 핵심 - 고객 데이터 마트 구축
- 동일한 데이터 셋을 활용할 경우 , 최신 분석기법들을 이용하면 분석가의 역량에서는 분석 효과가 크게 차이가 나지 않기 때문에 데이터 마트를 어떻게 구축하느냐에 ㄸ라 분석 효과는 크게 차이 난다.
나. 요약변수
- 수집된 정보를 분석에 맞게 종합한 변수이다.
- 데이터마트에서 가장 기본적인 변수로 총구매 금액 , 금액 , 횟수 , 구매여부 등 데이터 분석을 위해 만들어 지는 변수이다.
- 많은 모델을 공통으로 사용될 수 있어 재활용성이 높다.
- 합계, 횟수와 같이 간단한 구조이므로 자동화하여 상황에 맞게 또는 일반적인 자동화프로그램으로 구축 가능하다.
- 요약변수의 단점은 얼마 이상이면 구매하더라도 기준값의 의미 해석이 예매할 수 있다. 이러한 경우 , 연속형 변수를 그룹핑해 사용하는 것이 좋다.
(Ex)
기간별 구매 금액 , 횟수 여부 : 고객의 구매 패턴을 볼 수 있는 변수이다.
위클리 쇼퍼 : 구매 시기를 통해 고객의 특성을 추정하는데 활용 가능하다.
상품별 구매 금액 , 회수 여부 : 고객의 라이프 스테이지와 라이프 스타일 등을 이해하는데 크게 도움이 된다
상품별 구매 순서 : 고객에 대한 이해와 해석력을 높일 수 있다.
유통 채널별 구매 금액 : 온라인과 오프라인 사용 고객에게 모두 사용하도록 유도하는데 활용한다.
단어 빈도 : 텍스트 자료에서 단어들의 출현 빈도를 데이터화하여 사용한다.
초기 행동변수 : 고객 가입 또는 첫 거래 초기 1개월 간 거래 패턴에 대한 변수로 1년후에 어떤 행동을 보일지를 평가하는 지표로 활용한다.
트렌드 변수 : 추이값을 나타내는 변수이다.
결측값과 이상값 처리 : 결측값과 이상값은 무리해서 처리하려고 하면 시간과 위험이 커질 수 있으므로 데이터의 내용을 파악하여 처리해야 한다.
연속형 변수의 구간화 : 분석후 적용 단계를 고려한 데이터 분석을 위해 연령이나 비용 등 연속형 변수를 구간화 하는 것이 필요하다. 반드시 10, 100, 1000 단위로 구간화하지 말고 의미있는 구간으로 구간화한다.
다. 파생변수
- 사용자(분석자)가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수이다.
- 매우 주관적일 수 있으므로 논리적 타당성을 갖추어 개발해야 한다.
- 세분화 , 고객행동 예측 , 캠페인 반응 예측에 매우 잘 활용된다.
- 파생변수는 상황에 따라 특정 상황에만 유의미하지 않게 대표성을 나타나게 할 필요가 있다.
(Ex)
근무시간 구매지수 : 근무시간대에 거래가 발생하는 비율을 산출하여 활용
주 구매 매장 변수 : 고객의 주거래 매장을 예측하여 적절한 분석에 활용
주 활동 지역 변수 : 고객의 정보나 거래내용을 통해 주 활동지역을 예측하여 분석에 활용
주 구매상품 변수 : 상품을 추천하는데 활용 ( 1순위 상품을 구매하고 2순위 상품을 구매하지 않은 고객에게 추천 )
구매상품 다양성 변수 : 고객이 다양한 상품이나 같은 브랜드 등을 구매하는 성향을 파악하여 분석에 필요한 변수로 변환
선호하는 가격대 변수 : 각자의 취향 , 소득 , 서비스 등에 따라 많이 투자하는 상품군이 있는데 주로 패션분야에 중요하게 적용
시즌 선호고객 변수 : 각자 의미 있게 생각하는 날 소비가 많이 이루어지기 때문에 패턴을 파악하여 분석에 활용 ( 주로 유통업 )
라이프 스테이지 변수 : 고객이 속한 라이프 스테이지를 예측하여 행동을 이해하고 그들의 니즈와 가치를 파악하는데 활용
라이프스타일 변수 : 고객의 라이프스타일을 보고 상품구매를 유도하는데 활용
행사민감 변수 : 같은 상품도 행사를 할 때 구매하는 사람이 있고 행사와 관련 없이 구매하는 사람이 있는데 이런 행동 패턴을 파악하여 활용
휴면가망 변수 : 고객은 늘 구매하지 않기 때문에 고객의 취향이나 관심사가 변해 구매하지 않거나 경쟁사의 상품을 선호하게 되는 경우가 있는데 이를 파악하여 사전 대응에 활용
최대가치 변수 : 고객의 가치를 판단하여 어느 정도를 판매할 수 있는지를 예측하는데 활용
최적 통화 시간 : 콜센터에 걸려온 시간으로 고객의 직업 등을 고려한 통화시간을 예측하여 통화 시도
라. reshape 의 활용
- reshape 패키지에는 melt() 와 cast() 라는 2개의 핵심 함수가 있다 ( 철을 녹이고 다시 틀에 넣어 모양을 만드는 과정에 비유하여 , 녹이는 함수를 melt() , 모양을 만드는 함수를 cast() 로 사용한다 )
- 다음의 예시는 reshape 패키지의 주요 기능인 melt를 이용해 airquality 데이터의 Month , id 를 기준으로 모든 데이터를 표준형식으로 변환한다.
- 변수를 조합해 변수명을 만들고 변수들을 시간 , 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터마트를 구성할 수 있게 한다.
melt() : 원데이터 형태로 만드는 함수
cast() : 요약 형태로 만드는 함수
2. sqldf를 이용한 데이터 분석
- sqldf는 R에서 sql의 명령어를 사용 가능하게 해주는 패키지이다.
- SAS에서의 proc sql 와 같은 역할을 하는 패키지이다.
3. plyr을 이용한 데이터 분석
- plyr은 apply 함수에 기반해 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지이다.
- split - apply - combine : 데이터를 분리하고 처리한 다음 , 다시 결합하는 등 필수적인 데이터 처리 기능을 제공한다.
4. 데이터 테이블
- data.table 패키지는 R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나이다.
- data.table은 큰 데이터를 탐색 , 연산 , 병합 하는데 아주 유용하다.
- 기존 data.frame 방식보다 월등히 빠른 속도이다.
- 특정 column을 key값으로 색인을 지정한 후 데이터를 처리한다.
- 빠른 그루핑과 ordering , 짧은 문장 지원 측면에서 데이터프레임보다 유용하다
'자격증 > ADSP' 카테고리의 다른 글
데이터 분석 준전문가(adsp) - 기초 분석 및 데이터 관리 (0) | 2020.02.01 |
---|---|
데이터 분석 준전문가(adsp) - 데이터 가공 (0) | 2020.01.31 |
데이터 분석 준전문가(adsp) - 데이터 변형 (0) | 2020.01.30 |
데이터 분석 준전문가(adsp) - 데이터 구조와 데이터 프레임 - 2 (0) | 2020.01.28 |
데이터 분석 준전문가(adsp) - 데이터 구조와 데이터 프레임 - 1 (0) | 2020.01.27 |
#IT #먹방 #전자기기 #일상
#개발 #일상