1. 다차원척도법 ( Multidimensional Scaling ) - 객체간 근접성 ( Proximity ) 을 시각화하는 통계기법이다. - 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후에 개체들 사이의 유사성 / 비유사성을 측정하여 개체들을 2차원 공간상에 점으로 표현하는 분석방법이다. - 개체들을 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석방법이다. 2. 다차원척도법 목적 - 데이터 속에 잠재해 있는 패턴(pattern) , 구조를 찾아낸다 - 그 구조를 소수 차원의 공간에 기하학적으로 표현한다. - 데이터 축소 (Data Reduction) 의 목적으로 다차원척도법을 이용한다. 즉 , 데이터에 포함되는 정보를 끄집어내기 위해서 다차원척도법을..
1. 시계열 자료 - 시간의 흐름에 따라 관찰된 값들을 시계열 자료라 한다. - 시계열 데이터의 분석을 통해 미래의 값을 예측하고 경향 , 주기 , 계절성 등을 파악하여 활용한다. 나. 시계열 자료의 종류 1) 비정상성 시계열 자료 - 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열자료가 이에 해당한다. 2) 정상성 시계열 자료 - 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료이다. 2. 정상성 가. 평균이 일정할 경우 - 모든 시점에 대해 일정한 평균을 가진다. - 평균이 일정하지 않은 시계열은 차분(difference)을 통해 정상화할 수 있다. 나.분산이 일정 - 분산도 시점에 의존하지 않고 일정해야 한다. - 분산이 일정하지 않을 경우 변환(Transformatio..
1.회귀분석의 개요 가. 회귀분석의 정의 - 하나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법이다. - 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법이다. - 독립변수의 개수가 하나이면 단순선형외귀분석 , 독립변수의 개수가 두 개 이상이면 다중선형 회귀분석으로 분석할 수 있다. 나. 회귀분석의 변수 - 영향을 받는 변수 ( y ) : 반응변수 ( response variable ) , 종속변수 (dependent variable) , 결과변수 (outcome variable) - 영향을 주는 변수 ( x ) : 설명변수 ( explanatory variable ) , 독립변수 ( independent variable ) , ..
1. 기술통계 ( Descriptive Statistics ) 가. 기술통계의 정의 - 자료의 특성을 표,그림,통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것이다. - 자료를 요약하는 기초적 통계를 의미한다. - 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계싼해봄으로써 데이터에 대한 대략적인 이해와 앞으로 분석에 대한 통찰력을 얻기에 유리하다. 3) 분포의 형태에 관한 측도 가) 왜도 - 분포의 비대칭정도를 나타내는 측도이다. - m3 > 0 : 오른쪽으로 긴 꼬리를 갖는 분포 - m3 = 0 : 좌우가 대칭인 분포 - m3 0 : 표준정규분포보다 더 뾰족함 - m..
1. 통계 - 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요역된 형태의 표현이다. (Ex) 일기예보 , 물가/시업률/GNP , 정당 지지도 , 의식조사와 사회조사 분석 통계 , 임상실험 등의 실험 결과 분석 통계 - 조사 또는 실험을 통해 데이터를 확보 , 조사대상에 따라 총조사(census) 와 표본조사로 구분한다. 2. 통계자료의 획득 방법 가. 총 조사 / 전수 조사 ( census ) - 대상 집단 모두를 조사하는데 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용되지 않는다. ( ex. 인구주택 총 조사 ) 나. 표본조사 - 대부분의 설문조사가 표본조사로 진행되며 모집단에서 샘플을 추출하여 진행하는 조사이다. - 모집단 ( population ) : 조사하고자 하..
1. 데이터 EDA ( 탐색적 자료 분석 ) - 데이터의 분석에 앞서 전체적으로 데이터의 특징을 파악하고 데이터를 다양한 각도로 접근한다. - summary() 를 이용하여 데이터의 기초통계량을 확인한다. 2. 결측값 인식 - 결측값은 NA , 9999999 , ' '(공백) , Unknown , Not Answer 등으로 표현되는 것으로 결측값을 처리하기 위해서 시간을 많이 사용하는 것은 비효율적이다. - 결측값 자체의 의미가 있는 경우도 있는데 예를 들면 쇼핑몰 가입자 중 특정 거래 자체가 존재하지 않는 경우와 인구통계학적데이터 ( demographic data ) 에서 아주 부자이거나 아주 가난한 경우 자신의 정보를 잘 채워 넣지 않기 때문에 가입자의 특성을 유추하여 활용할 수 있다. - 결측값 처..