시계열 분석2. 정상성(stationarity)이란?
안녕하십니까, 데분콘입니다.
이번 글은 정상성(stationarity)의 도입 이유와 정의를 알아보겠습니다.
본 내용을 더 잘 이해하시려면 시계열 분석 1. 백색소음(white noise)이란?을 읽고 와주세요.
1. 정상성(Stationarity)의 정의와 필요성
stationary의 사전적 의미는 '변화 없는'을 뜻합니다. 이것을 명사로 만든 것이 stationarity인데요. '정상성'이라고 말합니다. 시계열 분석에서 정상성의 의미는 시간이 지남에 따라서 시계열의 확률적 특징들이 변하지 않음을 뜻합니다.
이 의미가 중요한 이유는 무엇일까요? 두 가지 관점이 있습니다. 예측과 분석입니다.
1-1. 예측
시계열 모형은 이전 데이터를 바탕으로 만들어지고 예측을 하게 됩니다. 그런데 시간이 지남에 따라 데이터의 특징이 바뀌면 예측이 가능할까요? 아마 쉽지 않을 것입니다. 즉, 정상성은 예측을 할 때 필요한 조건인 것입니다.
1-2. 분석
분석을 하려면 확률 과정(각 시간에 대한 확률변수의 집합)을 나타내는 시계열 모형을 알아야 합니다. 이때, 확률변수의 CDF(Cumulative Distribution Function)를 알 수 있으면 확률 과정에 대한 모든 정보를 아는 것입니다. 그런데 모든 시간에 대해 확률변수가 있고, 모든 확률변수에 대한 CDF(예를 들어, 시간이 1,2,..., 50이 있으면 $_{1}\mathrm{C}_{50}$+$_{2}\mathrm{C}_{50}+ ...$개의 결합 분포)를 찾는 것은 불가능합니다. 따라서 어떤 두 구간의 시간을 잡았을 때, shift 시켜도 동일한 분포를 나타내는 조건이 있다면 보다 간편하게 분석이 가능하겠죠. 바로 이 조건이 정상성입니다.
정상성은 강정상성(strict stationality)과 약정상성(weak stationarity)이 있습니다.
2. 강정상성(strict stationarity)
정상성은 시간이 지나도 시계열의 확률적 특징이 변하지 않음을 뜻한다고 했습니다. 확률적 특징이 변하지 않는다는 것은 확률변수의 결합 분포가 변하지 않는 것입니다. 결합 분포가 같아야한다는 것이죠. 구체적으로, 시간 h만큼 n개의 확률변수를 이동시키더라도 이동 전의 결합분포와 같아야 합니다. 이를 수식으로 나타내면 다음과 같습니다.
$F_{X_1, X_2, \cdots , X_n}(x_1, x_2, ···, x_n) = \mathrm{P}(X_1 \le x_1, X_2 \le x_2, \cdots, X_n \le x_n)$라고 할 때,
$$F_{X_1, X_2, \cdots , X_n}(x_1, x_2, ···, x_n)=F_{X_{1+h}, X_{2+h}, \cdots , X_{n+h}}(x_1, x_2, ···, x_n)$$
이때, 모든 확률변수의 조합의 결합 분포가 시간 $h$만큼 이동하더라도 같아야 합니다. 즉,
$$F_{X_1, X_2}(x_1, x_2)=F_{X_{1+h}, X_{2+h}}(x_1, x_2)$$
$$F_{X_1, X_3}(x_1, x_3)=F_{X_{1+h}, X_{3+h}}(x_1, x_3)$$
$$ \vdots $$
시계열 모형이 주어졌을 때, 이 모형이 강정상성을 따르는지 확인하는 것은 현실적으로 불가능합니다. 따라서 조금 더 약한 조건이 필요하고 그 조건이 약정상성(weak stationality)입니다.
3. 약정상성(weak stationality)
약정상성은 강정상성과 다르게 분포에 대한 조건이 없습니다. 다음의 세 가지 조건을 만족하면 약정상성이라고 말할 수 있습니다.
조건 1. $ \mathrm{E}[X_t]$ is constant.
조건 2. $ \mathrm{Cov}(X_t,X_s)=\mathrm{Cov}(X_{t+h},X_{s+h})$, for all $s, t. \Rightarrow $ $\mathrm{Var}(X_t)=\mathrm{Var}(X_{t+h})$, for $s=t$.
조건 3. $ \mathrm{Cov}(X_t,X_{t+h})$ only dependent on h.
조건 3은 자기공분산(autocovariance)이 시간 간격($h$)에만 의존해야 함을 의미합니다. 즉, 자기공분산은 시간 간격($h$)만 정해지면 시간($t$)이 지나가도 $h$ 간격 사이의 관계는 동일함을 의미합니다. 이에 대해선 다음 포스팅에서 자세히 알아보겠습니다.
앞으로 특별한 언급이 없다면 정상성은 약정상성을 의미합니다.
4. white noise는 stationality를 만족할까?
보통 white noise는 $a_t \stackrel{iid}{\sim} \mathrm{N}(0, \sigma^2)$인 모형으로 가정합니다.
조건 1. $ \mathrm{E}[a_t]=0$
조건 2. $ \mathrm{Cov}(a_t,a_s)$ $=$ $ \mathrm{Cov}(a_{t+h},a_{s+h})=0 $ 이고 $ \mathrm{Var}(a_t)=\mathrm{Var}(a_{t+h})= \sigma^2 $
조건 3. $ \mathrm{Cov}(a_t,a_{t+h})=0$
따라서 white noise는 stationality를 만족합니다.
5. 정상성이 아닌 데이터 처리 방법
만약 어떤 데이터가 정상성을 가지지 않는다면 예측이 불가능할까요? 아닙니다. 여러 방법을 통해 정상성을 가진 데이터로 만들면 됩니다. 간단하게 설명하면 트렌드가 있는 경우엔 트렌드를 회귀분석을 같은걸 통해 제거하면 잔차가 남게 됩니다. 잔차를 정상성 모형인 white noise 등을 통해 모델링하면 됩니다. 즉, 트렌드 모형 + 잔차 모형 두 부분으로 나누어 시계열 모형을 만들고 분석을 진행하게 되겠죠. 구체적인 내용은 추후 다루겠습니다.
다음 포스팅에서는 자기상관관계(autocorrelation)에 대해 살펴보겠습니다.
도움이 되셨다면, ♥공감 버튼을 눌러주세요.
감사합니다.
'⏱시계열분석' 카테고리의 다른 글
시계열 분석3. 자기상관(autocorrelation)이란? (0) | 2022.03.18 |
---|---|
시계열 분석1. 백색소음(white noise)이란? (0) | 2022.03.08 |
댓글
이 글 공유하기
다른 글
-
시계열 분석3. 자기상관(autocorrelation)이란?
시계열 분석3. 자기상관(autocorrelation)이란?
2022.03.18 -
시계열 분석1. 백색소음(white noise)이란?
시계열 분석1. 백색소음(white noise)이란?
2022.03.08