데이터 분석 준전문가(adsp) - 통계분석의 이해
1. 통계
- 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요역된 형태의 표현이다.
(Ex) 일기예보 , 물가/시업률/GNP , 정당 지지도 , 의식조사와 사회조사 분석 통계 , 임상실험 등의 실험 결과 분석 통계
- 조사 또는 실험을 통해 데이터를 확보 , 조사대상에 따라 총조사(census) 와 표본조사로 구분한다.
2. 통계자료의 획득 방법
가. 총 조사 / 전수 조사 ( census )
- 대상 집단 모두를 조사하는데 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용되지 않는다.
( ex. 인구주택 총 조사 )
나. 표본조사
- 대부분의 설문조사가 표본조사로 진행되며 모집단에서 샘플을 추출하여 진행하는 조사이다.
- 모집단 ( population ) : 조사하고자 하는 대상 집단 전체
- 원소 ( element ) : 모집단을 구성하는 개체
- 표본 ( sample ) : 조사하기 위해 추출한 모집단의 일부 원소
- 모수 ( parameter ) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
- 모집단의 정의 , 표본의 크기 , 조사방법 , 조사기간 , 표본추출방법을 정확히 명시해야 한다.
다. 표본 추출 방법
- 표본조사의 중요한 점은 모집단을 대표할 수 있는 표본 추출이므로 표본 추출 방법에 따라 분석결과의 해석은 큰 차이가 발생한다 .
( N개의 모집단에서 n개의 표본을 추출하는 경우 )
1) 단순랜덤 추출법 ( simple random sampling )
- 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법으로 각 샘플은 선택될 확률이 동일하다
( 비복원 , 복원 ( 추출한 element를 다시 집어넣어 추출하는 경우 ) 추출 )
2) 계통추출법 ( systematic sampling )
- 단순랜덤추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 ( K = N/n ) n개의 구간으로 나누고 첫 구간 ( 1 , 2 , ..... , K ) 에서 하나를 임의로 선택한 후에 K개씩 띄어서 n개의 표본을 선택한다. 즉 , 임의 위치에서 매 K번째 항목을 추출하는 방법이다.
3) 집략추출법 ( cluster random sampling )
- 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후 , 모든 자료를 활용하거나 샘플링하는 방법이다 ( 지역표본추출 , 다단계표본추출 )
4) 충화추출법 ( stratified random sampling )
- 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있또록 표본을 추출하는 방법으로 , 유사한 원소끼리 몇 개의 층 ( stratum ) 으로 나누어 각 층에서 랜덤 추출하는 방법이다 ( 비례충화추출법 , 불비례충화추출법 )
라. 측정 ( measurement )
1) 개요
- 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것이다.
2) 측정방법
명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 ( 성별 , 출생지 구분 )
순서척도 : 측정 대상의 서열관계를 관측하는 척도 ( 만족도 , 선호도 , 학년 , 신용등급 )
--> 질적척도 : 숫자들의 크기 차이가 계산 되지 않는 척도
구간척도 ( 등간척도 ) : 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격이 의미가 있는 자료 ( 온도 , 지수 )
비율척도 : 간격(차이)에 대한 비율이 의미를 가지는 자료 , 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도 ( 무게 , 나이 , 시간 , 거리 )
--> 양적척도 : 숫자들의 크기 차이를 계산 할 수 있는 척도
- 서열척도는 명목척도와 달리 매겨진 숫자의 크기를 의미있게 활용할 수 있다
(Ex) 1등이 2등보다는 성적이 높다
- 구간척도는 절대적 크기는 측정할 수 없기 때문에 사칙연산 중 더하기와 빼기는 가능하지만 비율처럼 곱하거나 나누는 것은 불가능하다 .
3. 통계분석
가. 정의
- 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고 , 적절한 통계분석 방법을 이용해 의사결정을 하는 과정이다.
나. 기술통계 ( descriptive statistic )
- 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하여 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론이다.
- Sample에 대한 특성인 평균 , 표준편차 , 중위수 , 최빈값 , 그래프 , 왜도 , 첨도 등을 구하는 것을 의미한다.
다.통계적 추론 ( 추측통계 , inference statistics )
- 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것으로 Sample을 통해 모집단을 추정하는 것을 의미한다.
1) 모수추정
- 표본집단으로부터 모집단의 특성인 모수(평균,분산)를 분석하여 모집단을 추론한다.
2) 가설검정
- 대상집단에 대해 특정한 가설을 설정한 후에 그 가설이 옳은지 그른지에 대한 채택여부를 결정하는 방법론이다.
3) 예측
- 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용한다.
4. 확률 및 확률분포
가. 확률
- 표본공간 S에 부분집합인 각 사상에 대해 실수값을 가지는 함수의 확률값이 0과 1사이에 있고, 전체 확률의 합이 1인 것을 의미한다. 표본공간의 부분집합인 사건 E의 확률은 표본공간의 원소의 개수에 대한 사건 E의 개수의 비율로 확률을 P(E)라고 할 때 , 다음과 같이 정의한다
P(E) = n(E) / n (표본공간)
1) 표본공간 ( sample space )
- 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합이다.
2) 사건 ( event )
- 관찰자가 관심이 있는 사건으로 표본공간의 부분집합이다.
3) 원소 ( element )
- 나타날 수 있는 개별의 결과들을 의미한다.
4) 확률변수 ( random variable )
- 특정값이 나타날 가능성이 확률적으로 주어지는 변수이다.
- 정의역(domain)이 표본공간 , 치역(range)이 실수값(0<y<1)인 함수이다.
- 0이 아닌 확률을 갖는 실수값의 형태에 따라 이산형 확률변수(discrete random variable)와 연속형 확률변수 ( continuous random variable ) 로 구분된다.
- 확률변수의 기대값
확률변수 X의 기대값 ( expectation , expected value ) 은 다음과 같이 정의한다.
5.추정과 가설검정
가. 추정의 개요
1) 확률표본 ( random sample )
- 확률분포는 분포를 결정하는 평균 , 분산 등의 모수 ( parameter ) 를 가지고 있다.
- 특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것이다.
- 각 관찰값들은 서로 독립적이며 동일한 분포를 갖는다.
2) 추정
- 표본으로부터 미지의 모수를 추측하는 것이다.
- 추정은 점추정 ( point estimation ) 과 구간추정 ( interval estimation ) 으로 구분된다
가) 점추정 (point estimation)
- 모수가 특정한 값일 것 이라고 추정하는 것이다.
- 표본의 평균,중위수,최빈값 등을 사용한다.
# 점추정량의 조건 , 표본평균 , 분산
- 불편성 ( unbiasedness ) : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 편의(차이)가 없다
- 효율성 ( efficiency ) : 추정량의 분산이 작을수록 좋다
- 일치성 ( consistency ) : 표본의 크기가 아주 커지면 , 추정량이 모수와 거의 같아진다.
- 충족성 ( sufficient ) : 추정량은 모수에 대하여 모든 정보를 제공한다.
- 표본평균 ( Sample mean ) : 모집단의 평균(모평균)을 추정하기 위한 추정량 , 확률표본의 평균값
- 표본분산 ( Sample variance ) : 모집단의 분산(모분산)을 추정하기 위한 추정량
나) 구간추정(interval estimation)
- 점추정의 정확성을 보완하기 위해 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언 하는 것이다.
- 항상 추정량의 분포에 대한 전제가 주어져야 하고 , 구해진 구간 안에 모수가 있을 가능성의 크기 ( 신뢰수준 : confidence interval ) 가 주어져야 한다.
나. 가설검정
1) 정의
- 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법이다.
- 표본 관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정이다.
- 귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택여부를 결정한다
가) 귀무가설 (null hypothesis , H0)
- 비교하는 값과 차이가 없다 , 동일하다 를 기본개념으로 하는 가설
나) 대립가설 (alternative hypothesis, H1)
- 뚜렷한 증거가 있을 때 주장하는 가설
다) 검정통계량 (test statistic)
- 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준
라) 유의수준(significance level, a)
- 귀무가설을 기각하게 되는 확률의 크기로 귀무가설이 옳은데도 이를 기각하는 확률의 크기
마) 기각역(critical region, C)
- 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 a인 부분
- 제1종 오류 ( type 1 error ) : 귀무가설 H0가 옳은데도 귀무가설을 기각하게 되는 오류
- 제2종 오류 ( type 2 error ) : 귀무가설 H0가 옳지 않은데도 귀무가설을 채택하게 되는 오류
- 두 가지 오류는 서로 상충관계가 있어서 일반적으로 가설검정에서는 제1종 오류 a의 크기를 0.1 , 0.05 , 0.01 등으로 고정시킨 뒤 제2종 오류 B가 최소가 되도록 기각역을 설정
6. 비모수 검정
- 통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분한다.
가. 모수적 방법
- 검정하고자 하는 모집단의 분포에 대한 가정을 하고 , 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법이다.
나. 비모수적 방법
- 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 방법이다.
- 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용한다.
- 관측된 자료의 수가 많지 않거나 ( 30개 미만 ) 자료가 개체간의 서열관계를 나타내는 경우에 이용한다.
다. 모수적검정과 비모수검정의 차이점
1) 가설의 설정
가) 모수적 검정
- 가정된 분포의 모수에 대해 가설을 설정한다
나) 비모수 검정
- 가정된 분포가 없으므로 가설은 단지 분포의 형태가 동일하다 또는 분포의 형태가 동일하지 않다와 같이 분포의 형태에 대해 설정한다.
2) 검정 방법
가) 모수적 검정
- 관측된 자료를 이용해 구한 표본평균 , 표본분산 등을 이용해 검정을 실시한다.
나) 비모수 검정
- 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위(rank)나 두 관측값 차이의 부호 등을 이용해 검정한다
라. 비모수 검정의 예
- 부호검정 , 윌콕슨의 순위합검정 , 윌콕슨의 부호순위합검정 , 만-위트니의 U 검정 , 런검정 , 스피어만의 순위상관계수