자격증/ADSP

데이터 분석 준전문가(adsp) - 시계열 분석

IT grow. 2020. 2. 8. 20:24
반응형

1. 시계열 자료 

 

- 시간의 흐름에 따라 관찰된 값들을 시계열 자료라 한다.

- 시계열 데이터의 분석을 통해 미래의 값을 예측하고 경향 , 주기 , 계절성 등을 파악하여 활용한다.

 

 

나. 시계열 자료의 종류 

 

1) 비정상성 시계열 자료 

- 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열자료가 이에 해당한다.

 

2) 정상성 시계열 자료 

- 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료이다.

 

 

2. 정상성 

 

가. 평균이 일정할 경우 

- 모든 시점에 대해 일정한 평균을 가진다.

- 평균이 일정하지 않은 시계열은 차분(difference)을 통해 정상화할 수 있다.

 

나.분산이 일정 

- 분산도 시점에 의존하지 않고 일정해야 한다.

- 분산이 일정하지 않을 경우 변환(Transformation)을 통해 정상화할 수 있다.

 

다.공분산도 단지 시차에만 의존, 실제 특정 시점 t , s에는 의존하지 않는다.

 

* 차분이란 ? 

--> 차분은 현시점 자료에서 전 시점 자료를 빼는 것이다

--> 일반차분(regular difference) : 바로 전 시점의 자료를 빼는 방법이다

--> 계절차분(seasonal difference) : 여러 시점 전의 자료를 빼는 것 방법 , 주로 계절성을 갖는 자료를 정상화 하는데 사용한다.

 

 

1) 정상 시계열의 특징 

- 정상 시계열은 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 갖는다.

 

- 정상 시계열은 항상 그 평균값으로 회귀하려는 경향이 있으며 그 평균값 주변에서의 변동은 대체로 일정한 폭을 갖는다.

 

- 정상 시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화 할 수 없다.

 

 

3. 시계열자료 분석방법 

 

가. 분석방법 

- 회귀분석(계량경제)방법 , Box - JenKins 방법 , 지수평활법 , 시계열 분해법 등이 있다.

 

--> 수학적 이론모형 : 회귀분석(계량경제)방법 , Box-Jenkins 방법

--> 직관적 방법 : 지수평활법 , 시계열 분해법으로 시간에 따른 변동이 느린 데이터 분석에 활용 

--> 장기 예측 : 회귀분석방법 활용

--> 단기 예측 : Box-Jenkins 방법 , 지수평활법 , 시계열 분해법 활용 

 

나. 자료 형태에 따른 분석방법 

 

1) 일변량 시계열분석 

- Box-Jenkins(ARMA) , 지수 평활법 , 시계열 분해법 등이 있다.

- 시간(t)을 설명변수로 한 회귀모형주가 , 소매물가지수 등 하나의 변수에 관심을 갖는 경우의 시계열분석 

 

2) 다중 시계열분석 

- 계량경제 모형 , 전이함수 모형 , 개입분석 , 상태공간 분석 , 다변량 ARIMA 등 

- 여러개의 시간(t)에 따른 변수들을 활용하는 시계열 분석 

 

" 계량경제(econometrics) : 시계열 데이터에 대한 회귀분석 " 

(Ex) 이자율 , 인플레이션이 활율에 미치는 요인 

 

 

다. 이동평균법 

 

1) 이동평균법의 개념 

- 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균을 계산하고 , 이들의 추세를 파악하여 다음 기간을 예측하는 방법 

- 시계열 자료에서 계절변동과 불규칙변동을 제거하여 추세변동과 순환변동만 가진 시계열로 변환하는 방법으로도 사용됨

 

t = n - m + 1 

 

- n 개의 시계열 데이터를 m기간으로 이동평균하면 n - m + 1 개의 이동평균 데이터가 생성된다 

 

 

2) 이동평균법의 특징 

- 간단하고 쉽게 미래를 예측할 수 있으며 , 자료의 수가 많고 안정된 패턴을 보이는 경우 예측의 품질(quality)이 높음 

- 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치를 부여함 

- 일반적으로 시계열 자료에 뚜렷한 추세가 있거나 불규칙변동이 심하지 않은 경우에는 짧은기간 ( m의 개수를 적음 ) 의 평균을 사용 , 반대로 불규칙변동이 심한 경우 긴 기간 ( m의 개수가 많음 ) 의 평균을 사용함 

 

 

라. 지수평활법 

 

1) 지수평활법의 개념 

- 일정기간의 평균을 이용하는 이동평균법과 달리 모든 시계열 자료를 사용하여 평균을 구하며 , 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법 

 

F n+1 은 n 시점 다음의 예측값 , a는 지수평활계수 , Zn은 n시점의 관측값이며 , 지수평활계수가 과거로 갈수록 지수형태로 감소하는 형태인 것을 확인할 수 있다.

 

2) 지수평활법의 특징 

- 단기간에 발생하는 불규칙변동을 평활하는 방법 

- 자료의 수가 많고 , 안정된 패턴을 보이는 경우일수록 예측 품질이 높음 

- 지수평활법에서 가중치의 역할을 하는 것은 지수평활계수(a)이며 , 불규칙변동이 큰 시계열의 경우 지수평활계수는 작은 값을 , 불규칙변동이 작은 시계열의 경우 , 큰 값의 지수평활계수를 적용함 

- 지수평활계수는 예측오차(실제 관측치와 예측치 사이의 잔차제곱합)를 비교하여 예측오차가 가장 작은 값을 선택하는 것이 바람직하다 

- 지수평활계수는 과거로 갈수록 지속적으로 감소함 

- 지수평활법은 불규칙변동의 영향을 제거하는 효과가 있으며 중기 예측 이상에 주로 사용된다 

( 단 , 단순지수 평활법의 경우 , 장기추세나 계절변동이 포함된 시계열의 예측에는 적합하지 않음 ) 

 

 

4.시계열모형 

 

가. 자기회귀 모형 ( AR 모형 , autoregressive model ) 

- p 시점 전의 자료가 현재 자료에 영향을 주는 모형이다 

 

 

나. 이동평균 모형 ( MA 모형 , Moving Average model ) 

- 유한한 개수의 백색잡음의 결합이므로 언제나 정상성을 만족 

- 1차 이동평균모형(MA1 모형)은 이동평균모형 중에서 가장 간단한 모형으로 시계열이 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이뤄진 모형 

- 2차 이동평균모형(MA2 모형)은 바로 전 시점의 백색잡음과 시차가 2인 백색잡음의 결합으로 이뤄진 모형 

 

 

다. 자기회귀누적이동평균 모형 (ARIMA(p,d,q) 모형  , autoregressive integrated moving average model ) 

 

- ARIMA 모형은 비정상시계열 모형이다.

- ARIMA 모형을 차분이나 변환을 통해 AR모형이나 MA모형 , 이 둘을 합친 ARMA 모형으로 정상화 할 수 있다.

- p는 AR 모형 , q는 MA모형과 관련이 있는 차수이다.

- 시계열 {Zt}의 d번 차분한 시계열이 ARMA(p,q) 모형이면 시계열 {Zt}는 차수가 p,d,q인 ARIMA 모형, 즉 ARIMA(p,d,q) 모형을 갖는다고 한다.

- d = 0 이면 ARMA(p,q) 모형이라 부르고 , 이 모형은 정상성을 만족한다 

- p = 0 이면 IMA(d,q) 모형이라고 부르고 , d번 차분하면 MA(q) 모형을 따른다.

- q = 0 이면 ARI(p,d) 모형이라 부르며 , d번 차분한 시계열이 AR(p) 모형을 따른다.

 

 

라. 분해 시계열 

- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말하며 회귀분석적인 방법을 주로 사용한다.

- 분해식의 일반적 정의 

Zt = f ( Tt,St,Ct,It ) 

 

Tt : 경향(추세)요인 : 자료가 오르거나 내리는 추세 , 선형 , 이차식 형태 , 지수적 형태 

St : 계절요인 : 요일 , 월 , 사계절 각 분기에 의한 변화 등 고정된 주기에 따라 자료가 변하는 경우 

Ct : 순환요인 : 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료 

It : 불규칙요인 : 위의 세가지 요인으로 설명할 수 없는 오차에 해당하는 요인 

 

 

마. R을 이용한 시계열분석

- 영국 왕들의 사망 시 나이 데이터를 이용한 시계열분석 

 

(Ex)

- 영국 왕 42명의 사망 시 나이 예제는 비계절성을 띄는 시계열 자료 

- 비계절성을 띄는 시계열 자료는 트렌드 요소 , 불규칙 요소로 구성 

- 20번째 왕까지는 38세에서 55까지 수명을 유지하고 그 이후부터는 수명이 늘어서 40번째 왕은 73세까지 생존 

 

 

2) ARIMA 모델 

 

가 ) 개요 

- ARIMA 모델은 정상성 시계열에 한해 사용한다

- 비정상 시계열 자료는 차분해 정상성으로 만족하는 조건의 시계열로 바꿔준다.

- 이전 그래프에서 평균이 시간에 따라 일정치 않은 모습을 보이므로 비정상시계열이다.

- 1차 차분 결과에서 평균과 분산이 시간에 따라 의존하지 않음을 확인한다.

- ARIMA(p,1,q) 모델이며 차분을 1번 해야 정상성을 만족한다

 

반응형