자격증/ADSP

데이터 분석 준전문가(adsp) - 기초 통계분석

IT grow. 2020. 2. 7. 13:39
반응형

1. 기술통계 ( Descriptive Statistics ) 

 

가. 기술통계의 정의 

- 자료의 특성을 표,그림,통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것이다.

- 자료를 요약하는 기초적 통계를 의미한다.

- 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계싼해봄으로써 데이터에 대한 대략적인 이해와 앞으로 분석에 대한 통찰력을 얻기에 유리하다.

 

 

3) 분포의 형태에 관한 측도

 

가) 왜도 

- 분포의 비대칭정도를 나타내는 측도이다.

 

- m3 > 0 : 오른쪽으로 긴 꼬리를 갖는 분포 

- m3 = 0 : 좌우가 대칭인 분포 

- m3 < 0 : 왼쪽으로 긴 꼬리를 갖는 분포 

 

 

나) 첨도 

- 분포의 중심에서 뾰족한 정도를 나타내는 측도이다.

 

- m4 > 0 : 표준정규분포보다 더 뾰족함 

- m4 = 0 : 표준정규분포와 유사한 뾰족함

- m4 < 0 : 표준정규분포보다 덜 뾰족함 

 

 

다. 그래프를 이용한 자료 정리 

 

1) 히스토그램 

- 표로 되어 있는 도수 분포를 그림으로 나타낸 것으로 , 도수분포표를 그래프로 나타낸 것이다

 

2) 막대그래프와 히스토그램의 비교 

 

가) 막대그래프 

- 범주 ( category ) 형으로 구분된 데이터를 표현하며 범주의 순서를 의도에 따라 바꿀 수 있다.

 

나) 히스토그램 

- 히스토그램은 연속(continuous)형으로 표시된 데이터를 표현하며 임의로 순서를 바꿀 수 없고 막대의 간격이 없다.

 

 

 

3) 히스토그램의 생성 

- 데이터의 수를 활용해서 계급의 수와 계급간격을 계산하여 도수분포표를 만들고 히스토그램을 생성한다.

- 계급의 수는 2K >= n 을 만족하는 최소의 정수 log2 n = k 에서 최소의 정수이다 

- 계급의 간격은 ( 최대값 - 최소값 ) / 계급수로 파악할 수 있다.

- 계급의 수와 간격이 변하면 히스토그램의 모양이 변한다.

 

 

4) 줄기-잎 그림 (stem-and leaf plot) : 데이터를 줄기와 잎의 모양으로 그린 그림 

 

5) 상자그림(Box plot) : 다섯 숫자 요약을 통해 그림으로 표현 ( 최소값 , Q1 , Q2 , Q3 , 최대값 ) 

- 사분위수범위(IQR) : Q3 - Q1 

- 안울타리 ( inner fence ) : Q1 - 1.5 x IQR or Q3 + 1.5 X IQR 

- 바깥울타리 ( outer fence ) : Q1 - 3 x IQR or Q3 + 3 x IQR 

- 보통이상점 ( mild outlier ) : 안쪽 울타리와 바깥 울타리 사이에 있는 자료 

- 극단이상점 ( extreme outlier ) : 바깥울타리 밖의 자료 

 

R에서 활용되는 대표적 기술통계 

 

head ( data명 ) : 데이터를 기본 6줄 보여주어 데이터가 성공적으로 import되었는지 살펴볼 수 있다.

head (data명,n) : n에 숫자를 지정해주면 n번째 라인까지 살펴볼 수 있다.

summary (data명) : 데이터 컬럼에 대한 전반적인 기초 통계량을 보여준다.

mean(data명$column명) : 특정 칼럼의 평균을 알고 싶을 때 사용

median(data명$column명) : 특정 컬럼의 중앙값을 알고 싶을 때 사용

sd(data명$column명) : 특정 컬럼의 표준편차를 알고 싶을 때 사용

var(data명$column명) : 특정 컬럼의 분산을 알고 싶을 때 사용

quantile(data명$column명) : 특정 컬럼의 분위수를 알고 싶을 때 사용

 

 

2.인과관계의 이해 

 

가.용어

 

1) 종속변수 (반응변수,y)

- 다른 변수의 영향을 받는 변수 

 

2) 독립변수 (설명변수,x)

- 영향을 주는 변수 

 

3) 산점도(scatter plot) 

- 좌표평면 위에 저믈로 표현한 그래프 

 

 

# 산점도에서 확인할 사항 

- 두 변수 사이의 선형관계가 성립하는가?

- 두 변수 사이의 함수관계가 성립하는가?

- 이상값이 존재하는가?

- 몇 개의 집단으로 구분(층별)되는가?

 

 

나. 공분산 (covariance) 

 

- 두 확률변수 X,Y 의 방향의 조합(선형성)이다.

Cov ( X,Y ) = E[ (X - ux)(Y - ur) ] 

 

- 공분산의 부호만으로 두 변수간의 방향성을 확인할 수 있다. 공분산의 부호가 + 이면 두 변수는 양의 방향성 , 공분산의 부호가 - 이면 두 변수는 음의 방향성을 가진다.

 

X,Y 가 서로 독립이면 , Cov(X,Y) = 0 이다

Cov(X,Y) = a xr = E [XY | - E(X)E(Y)

 

 

3. 상관분석 ( Correlation Analysis ) 

 

가. 상관분석의 정의 

- 두 변수 간의 관계의 정도를 알아보기 위한 분석방법이다.

- 두 변수의 상관관계를 알아보기 위해 상관계수(Correlation coefficient)를 이용한다.

 

 

나. 상관관계의 특성 

 

0.7 <= r <= 1 : 강한 양(+)의 상관이 있다.

0.3 <= r <= 0.7 : 약한 양(+)의 상관이 있다.

0 <= r <= 0.3 : 거의 상관이 없다

r = 0 : 상관관계가 존재하지 않는다 

-0.3 <= r < 0 : 거의 상관이 없다 

-0.7 <= r < -0.3 : 약한 음(-)의 상관이 있다.

-1 <= r < -0.7 : 강한 음(-)의 상관이 있다.

 

 

다.상관분석의 유형 

 

- 피어슨 

 

--> 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 방식 

--> 연속형 변수 , 정규성 가정 , 대부분 많이 사용 

--> 피어슨 r ( 적률상관계수 ) 

 

 

- 스피어만 

 

--> 서열척도인 두 변수들의 상관관계 측정 방식 

--> 순서형 변수 , 비모수적 방법 , 순위를 기준으로 상관관계 측정 

--> 순위상관계수 ( p,로우 ) 

 

마. 상관분석의 가설 검정 

- 상관계수 r이 0이면 입력변수 x와 출력변수 y사이에는 상관 관계가 없다 

- t 검정통계량을 통해 얻은 p-value 값이 0.05이하인 경우 , 대립가설을 채택하게 되어 우리가 데이터를 통해 구한 상관계수를 활용할 수 있게 된다.

 

 

반응형