1. 기술통계 ( Descriptive Statistics )
가. 기술통계의 정의
- 자료의 특성을 표,그림,통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것이다.
- 자료를 요약하는 기초적 통계를 의미한다.
- 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계싼해봄으로써 데이터에 대한 대략적인 이해와 앞으로 분석에 대한 통찰력을 얻기에 유리하다.
3) 분포의 형태에 관한 측도
가) 왜도
- 분포의 비대칭정도를 나타내는 측도이다.
- m3 > 0 : 오른쪽으로 긴 꼬리를 갖는 분포
- m3 = 0 : 좌우가 대칭인 분포
- m3 < 0 : 왼쪽으로 긴 꼬리를 갖는 분포
나) 첨도
- 분포의 중심에서 뾰족한 정도를 나타내는 측도이다.
- m4 > 0 : 표준정규분포보다 더 뾰족함
- m4 = 0 : 표준정규분포와 유사한 뾰족함
- m4 < 0 : 표준정규분포보다 덜 뾰족함
다. 그래프를 이용한 자료 정리
1) 히스토그램
- 표로 되어 있는 도수 분포를 그림으로 나타낸 것으로 , 도수분포표를 그래프로 나타낸 것이다
2) 막대그래프와 히스토그램의 비교
가) 막대그래프
- 범주 ( category ) 형으로 구분된 데이터를 표현하며 범주의 순서를 의도에 따라 바꿀 수 있다.
나) 히스토그램
- 히스토그램은 연속(continuous)형으로 표시된 데이터를 표현하며 임의로 순서를 바꿀 수 없고 막대의 간격이 없다.
3) 히스토그램의 생성
- 데이터의 수를 활용해서 계급의 수와 계급간격을 계산하여 도수분포표를 만들고 히스토그램을 생성한다.
- 계급의 수는 2K >= n 을 만족하는 최소의 정수 log2 n = k 에서 최소의 정수이다
- 계급의 간격은 ( 최대값 - 최소값 ) / 계급수로 파악할 수 있다.
- 계급의 수와 간격이 변하면 히스토그램의 모양이 변한다.
4) 줄기-잎 그림 (stem-and leaf plot) : 데이터를 줄기와 잎의 모양으로 그린 그림
5) 상자그림(Box plot) : 다섯 숫자 요약을 통해 그림으로 표현 ( 최소값 , Q1 , Q2 , Q3 , 최대값 )
- 사분위수범위(IQR) : Q3 - Q1
- 안울타리 ( inner fence ) : Q1 - 1.5 x IQR or Q3 + 1.5 X IQR
- 바깥울타리 ( outer fence ) : Q1 - 3 x IQR or Q3 + 3 x IQR
- 보통이상점 ( mild outlier ) : 안쪽 울타리와 바깥 울타리 사이에 있는 자료
- 극단이상점 ( extreme outlier ) : 바깥울타리 밖의 자료
R에서 활용되는 대표적 기술통계
head ( data명 ) : 데이터를 기본 6줄 보여주어 데이터가 성공적으로 import되었는지 살펴볼 수 있다.
head (data명,n) : n에 숫자를 지정해주면 n번째 라인까지 살펴볼 수 있다.
summary (data명) : 데이터 컬럼에 대한 전반적인 기초 통계량을 보여준다.
mean(data명$column명) : 특정 칼럼의 평균을 알고 싶을 때 사용
median(data명$column명) : 특정 컬럼의 중앙값을 알고 싶을 때 사용
sd(data명$column명) : 특정 컬럼의 표준편차를 알고 싶을 때 사용
var(data명$column명) : 특정 컬럼의 분산을 알고 싶을 때 사용
quantile(data명$column명) : 특정 컬럼의 분위수를 알고 싶을 때 사용
2.인과관계의 이해
가.용어
1) 종속변수 (반응변수,y)
- 다른 변수의 영향을 받는 변수
2) 독립변수 (설명변수,x)
- 영향을 주는 변수
3) 산점도(scatter plot)
- 좌표평면 위에 저믈로 표현한 그래프
# 산점도에서 확인할 사항
- 두 변수 사이의 선형관계가 성립하는가?
- 두 변수 사이의 함수관계가 성립하는가?
- 이상값이 존재하는가?
- 몇 개의 집단으로 구분(층별)되는가?
나. 공분산 (covariance)
- 두 확률변수 X,Y 의 방향의 조합(선형성)이다.
Cov ( X,Y ) = E[ (X - ux)(Y - ur) ]
- 공분산의 부호만으로 두 변수간의 방향성을 확인할 수 있다. 공분산의 부호가 + 이면 두 변수는 양의 방향성 , 공분산의 부호가 - 이면 두 변수는 음의 방향성을 가진다.
X,Y 가 서로 독립이면 , Cov(X,Y) = 0 이다
Cov(X,Y) = a xr = E [XY | - E(X)E(Y)
3. 상관분석 ( Correlation Analysis )
가. 상관분석의 정의
- 두 변수 간의 관계의 정도를 알아보기 위한 분석방법이다.
- 두 변수의 상관관계를 알아보기 위해 상관계수(Correlation coefficient)를 이용한다.
나. 상관관계의 특성
0.7 <= r <= 1 : 강한 양(+)의 상관이 있다.
0.3 <= r <= 0.7 : 약한 양(+)의 상관이 있다.
0 <= r <= 0.3 : 거의 상관이 없다
r = 0 : 상관관계가 존재하지 않는다
-0.3 <= r < 0 : 거의 상관이 없다
-0.7 <= r < -0.3 : 약한 음(-)의 상관이 있다.
-1 <= r < -0.7 : 강한 음(-)의 상관이 있다.
다.상관분석의 유형
- 피어슨
--> 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 방식
--> 연속형 변수 , 정규성 가정 , 대부분 많이 사용
--> 피어슨 r ( 적률상관계수 )
- 스피어만
--> 서열척도인 두 변수들의 상관관계 측정 방식
--> 순서형 변수 , 비모수적 방법 , 순위를 기준으로 상관관계 측정
--> 순위상관계수 ( p,로우 )
마. 상관분석의 가설 검정
- 상관계수 r이 0이면 입력변수 x와 출력변수 y사이에는 상관 관계가 없다
- t 검정통계량을 통해 얻은 p-value 값이 0.05이하인 경우 , 대립가설을 채택하게 되어 우리가 데이터를 통해 구한 상관계수를 활용할 수 있게 된다.
'자격증 > ADSP' 카테고리의 다른 글
데이터 분석 준전문가(adsp) - 시계열 분석 (0) | 2020.02.08 |
---|---|
데이터 분석 준전문가(adsp) - 회귀분석 (0) | 2020.02.08 |
데이터 분석 준전문가(adsp) - 통계분석의 이해 (0) | 2020.02.01 |
데이터 분석 준전문가(adsp) - 기초 분석 및 데이터 관리 (0) | 2020.02.01 |
데이터 분석 준전문가(adsp) - 데이터 가공 (0) | 2020.01.31 |
#IT #먹방 #전자기기 #일상
#개발 #일상