2020. 7. 18. 12:23ㆍML in Python/Knowledge
1. 비정상/정상 시계열 자료
시계열 자료란 시간의 흐름에 따라 관측된 데이터를 말한다. 시계열 분석을 하기 위해서는 기본적으로 정상성(Stationary)를 만족해야한다. 정상성을 만족하는 것은 다음과 같은 것들을 만족하는 것이다.
1. 평균이 일정하다.
2. 분산이 시점에 의존하지 않는다.
3. 공분산은 단지 시차에만 의존하고, 시점 자체에는 의존하지 않는다.
이 3가지의 정상성 조건 중 하나라도 만족하지 못한다면 비정상 시계열이라고 부른다. 실제 대부분의 시계열 데이터는 비정상 시계열자료이다. 이러한 비정상성을 확인하기 위해서,
1. 가장 먼저 시계열 자료의 그림을 통해 이상점(Outlier)과 개입(Intervention)이 있는지 판단하고.
2. 정상성 만족 여부와 개략적인 추세 유무를 관찰한다.
이때,
1. 추세가 보인다면, 즉 평균이 일정하지 않다면 차분(Difference)을 통해서 비정상 시계열을 가공하고
2. 분산이 일정하지 않다면 변환(Transformation)을 통해서 비정상 시계열을 가공한다.
2. 시계열 모형
1) 자기회귀모형(AR모형)
자기회귀모형(Autoregressive model)은 현 시점의 자료가 p시점 전의 유한개의 과거 자료로 설명될 수 있다는 의미이다. AR(p)모형은 수식을 통해서는 다음과 같이 표현된다.
Z_t : 현재 시점의 시계열 자료
Z_t-i : i시점 이전의 시계열 자료
%p : p 시점이 현재 시점에 미치는 영향력
at : 백색잡음, 시계열 분석에 있어서 오차항
자기회귀 모형은 현 시점의 시계열 자료에서 몇 번째 전 자료까지 영향을 주는가를 파악하는데 중점이 되어있다. 현 시점의 자료가 과거 한 시점 이전의 자료에만 영향을 준다면, 이를 1차 자기회귀 모형 ( AR(1) )이라고 한다.
아래는 동일한 원리로 2차 자기회귀 모형 ( AR(2) )이다.
자기 회귀 모형인지 판단하기 위해서는 자료에서 자기상관함수(ACF, Auto-Correlation Function)와 부분자기상관함수(PACF, Partial Auto-Correlation Function)을 이용하여 식별한다. 자기회귀모형은 일반적으로 시차가 증가하면서 자기상관함수는 점차 감소하고, 부분자기상관함수는 p+1시차 이후로 급격히 감소하여 절단된 형태를 띈다. 이때 AR(p)모형이라고 한다.
2) 이동평균모형(MA모형)
이동평균 모형은 현 시점의 자료를 유한개의 백색잡음의 선형결합으로 표현한다. 그렇기에 항상 정상성을 만족하며, 정상성에 대한 가정이 필요하지 않다. 이동평균모형( MA(p) )의 형태는 다음과 같다.
MA(2) - 2차 이동평균 모형은 동 시점과 바로 전 두 시점의 백색잡음의 결합으로 이루어진 것이다.
이동평균 모형 또한 모형식별을 위해서 자기회귀모형과 마찬가지로 자기상관함수와 부분자기상관함수를 이용한다. 하지마 이동평균 모형은 자기회귀모형과 반대로 자기상관함수가 p+1시차 이후로 급격히 감소하여 절단된 형태를 띄고, 부분자기상관함수는 점차 감소하는 형태를 띈다.
3) 자기회귀누적이동평균모형(ARIMA 모형)
대부분의 많은 시계열 자료가 이 모형을 따른다. ARIMA모형은 기본적으로 비정상 시계열 모형이기에 차분이나 변환을 통해서 AR/MA/ARMA모형으로 정상화할 수 있다.
ARIMA(p,d,q)모형은 p,d,q의 값에 따라서 이름이 달라지게 된다.
1. 차수 p는 AR모형과 관련이 있고,
2. q는 MA모형과 관련이 있다.
3. 그리고 d는 ARIMA에서 ARMA로 정상화할 때 몇 번 차분했는지를 의미한다.
즉, d=0일 경우 ARMA(p,q)모형이라 부르는 것이고 이때 ARMA모형은 정상성을 만족한다. 그리고 ARMA모형은 단순하게 AR과 MA모형이 공존하는 형태이다. p=0이면 IMA(d,q)모형이라 부르며, 이 모형을 d번 차분하면 MA(q)모형이 된다. 마찬가지로 q=0일 경우 ARI(p,d)모형이며 이를 d번 차분했을 때 시계열 모형이 AR(p)를 따른다.
즉 ARIMA는 비정상 시계열로 정상시계열 자료형태인 AR/MA/ARMA로 d번 차분하여 변환시키는 모형이다.
4) 분해시계열
분해 시계열이란 시계열에 영향을 주는 일반적인 요인들을 시계열에서 분리시켜 분석하는 방법을 말한다. 그리고 회귀분석적인 방법을 주로 사용한다.
시계열을 구성하는 요소들은 다음 4가지와 같다.
a. 추세요인(Trend factor) - 자료가 plot으로 표현되었을 때, 오르거나 내리는 형태를 따르는 추세가 존재한다. 물론 단순 선형적인 형태가 아니라 2차식 등의 다른 비선형적 형태를 띌 수도 있다. 이때 자료가 추세요인이 있다고 한다.
b. 계절요인(Seasonal factor) - 요일/월별/분기별/년별 자료에서 각 특정 고정된 주기를 따라 자료가 변하는 경우가 발생한다. 이처럼 고정된 주기에 따라서 자료가 변화될 경우 계절요인이 있다고 한다.
c. 순환요인(Cyclical factor) - 명백하게 경제적/자연적 이유가 없이 알려지지 않은 주기를 갖고 변화하는 자료가 존재한다. 이와 같이 알려지지 않은 주기를 갖고 데이터가 변화하는 특성을 띄고 있을 때, 순환요인이 있다고 한다.
d. 불규칙요인(Irregular factor) - 위의 3가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인을 불규칙요인이라고 한다.
분해 시계열방법에서는 각 구성요소들을 정확히 분리해야한다. 그러나 이를 정확하게 분리하는 것이 쉽지가 않다. 게다가 분해 시계열 방법은 이론적인 약점이 존재한다고 알려져 있다. 하지만 그럼에도 불구하고 많은 학자들이 많이 성공적으로 사용하고 있기도 하다. 분해식은 아래의 형태와 같다.
여기서 T : 추세요인, S : 계절요인, C : 순환요인, I : 불규칙요인, Z : 시계열값, f : 미지의 함수 이다.
즉, 분해 시계열은 데이터에 맞는 함수를 요인별로 정확히 분해했을때 성립하도록 구성할 필요가 있다.