시계열 분석1. 백색소음(white noise)이란?
안녕하십니까, 데분콘입니다.
이번 글은 white noise의 정의와 기본 가정을 알아보고, 기본 가정을 왜 그렇게 정했는지 살펴보겠습니다.
0. 시계열 데이터란?
시간(1, 2, ···, n, ···) 순서에 따라 수집된 데이터($x_1,\,x_2,\, ···,\,x_n,\,···$)가 있을 때, 이 데이터를 시계열 데이터라고 합니다. 이때, 시간 간격은 같아야 합니다.
그렇다면 이 데이터는 어디서 나온 걸까요? 바로 확률 과정을 나타내는 모형에서 나왔다고 볼 수 있습니다. 즉, 각 순간(1, 2, ···, n, ···)마다 확률 변수($X_1,\,X_2,\,···,\,X_n,\,···$)가 있을 때(확률과정), 각 확률 변수의 실현이 바로 시계열 데이터($x_1,\,x_2,\, ···,\,x_n,\,···$)인 것이죠.
◆ 단어 정의
- 확률과정(stochastic process): 각 시간마다 있는 확률변수의 집합. $ \{ X_t, t \in T \} $.
- 실현(realization): 확률변수(random variable)에서 관찰된 표본.
1. 백색 소음(white noise)
noise는 피할 수 없는 외부 요소로 발생하는 잡음입니다. 다시말하면, 통제할 수 없는 요소(uncontrollable factor)에 의해 발생하는 noise라고 할 수 있습니다. noise를 처리하는 작업을 해야, 분석을 일관성 있게 할 수 있습니다. 즉, noise를 통제가능하도록 하는 작업이 필요합니다. 여기에 필요한 개념이 white noise입니다.
시계열 분석은 데이터로 모형을 만드는 것에서 시작합니다. noise는 이 모형을 만드는데 어려움을 줍니다. 통제할 수 없는 요소이기 때문이죠. 그래서 noise가 있더라도 시계열 분석이 통계적으로 가능하도록 만들어야합니다. 어떻게 하느냐? noise에 다음과 같은 가정을 하면 됩니다.
1-1. white noise의 기본 가정 3가지
시간(1, 2, ···, n) 순서에 따라 수집된 데이터($x_1,\,x_2,\, ···,\,x_n$)가 있을 때, 각 데이터에 noise($a_1,\,a_2,\, ···,\,a_n$)가 있다고 합시다. 이때, 다음의 3가지 가정을 만족하면 white noise라고 합니다.
1. $\mathrm{Cov}(a_t,a_s)=0, t \neq s$.
2. $\mathrm{E}[a_t]=0$.
3. $\mathrm{Var}[a_t]=\sigma^2$.
추가로 white noise는 iid라는 가정을 넣기도 합니다.
요약하면, 다음과 같습니다.
$$a_t \stackrel{iid}{\sim} \mathrm{wn}(0, \sigma^2)$$
여기에 더해, white noise의 분포를 정규분포(normal distribution)로 가정하면 다음과 같이 됩니다.
$$a_t \stackrel{iid}{\sim} \mathrm{N}(0, \sigma^2)$$
아래에서 각 가정이 가지는 의미를 살펴보겠습니다.
1-2. $\mathrm{Cov}(a_t,a_s)=0$의 의미
white noise 간에 선형적으로는 예측할 수 있는 정보가 없음을 의미합니다.
white noise는 통제할 수 없는 요소라고 했습니다. $\mathrm{Cov}(a_t,a_s) \neq 0$은 $a_s$과 $a_t$가 선형적 상관관계가 있음을 의미합니다. 상관관계가 있음은 예측할 수 있는 정보가 남아있는 것입니다. 즉, 분명히 위에서 noise는 피할수 없는 외부요소로 발생한다고 했고 통제할 수 없는 요소라고 했습니다. 그런데 예측할 수 있는 정보가 남아있다는 것은 정의에 어긋나는 것입니다.
1-3. $\mathrm{E}[a_t]=0$의 의미
white noise의 평균을 0으로 만듦(demeaning)으로써 계산과 모형을 간편하게 할 수 있습니다.
평균을 0으로 만드는 하나의 방법으로 치환이 있습니다. 예를 들어, $X$를 $X'=X-\mathrm{E}[X]$로 치환해보겠습니다. 이 과정은 demeaning 또는 centering이라고 합니다. 이렇게 하면, $ \mathrm{E}[X']=0$이 됩니다. 이를 활용하면 다음과 같이 쓸 수 있습니다. $ \mathrm{Cov}[X,Y] = \mathrm{Cov}[X',Y]$ 이므로,
$$ \begin{align*}
\mathrm{Cov}[X',Y] &= \mathrm{E}[X'-\mathrm{E}[X']]\mathrm{E}[Y-\mathrm{E}[Y]=0 \tag{1} \\
&= \mathrm{E}[X'Y]-\mathrm{E}[X']\mathrm{E}[Y]=0 \tag{2} \\
&= \mathrm{E}[X'Y]=0 \tag{3}
\end{align*} $$
(2)를 활용하는 것보다는 (3)을 활용하는 것이 수학적으로 간편하게 쓸 수 있습니다.
1-4. $\mathrm{Var}[a_t]=\sigma^2_a$의 의미
t에 상관없이 일정한 분산(variance)($\sigma^2_a$)을 갖는 것입니다.
1-5. iid의 의미
white noise끼리는 서로 같은 분포를 따르고, 서로 간에 어떠한 선형적, 비선형적 관계도 없음을 의미합니다.
iid는 identical and independent의 약어입니다. identical의 의미는 특정 시점에서 white noise의 정도가 변하는 게 아니라 동일하다는 의미(그림 1에서 동일한 분포가 계속된다.)이고, independent는 white noise끼리 서로 독립이라는 의미입니다.
Covariance와 independent 관련해서 추가로 설명드리면,
$$ \mathrm{Cov}(a_t,a_s)=0 \nRightarrow \mathrm{independent} \tag{4}$$
$$ \mathrm{independent} \Rightarrow \mathrm{Cov}(a_t,a_s)=0 \tag{5}$$
가 성립합니다. 즉, covariance가 0이라고 independent가 아닙니다. 하지만 indepent인 경우 covariance가 0입니다. 선형적, 비선형적 관계 모두가 없어야 independent가 성립하는데, covariance 같은 경우 선형적 관계만을 보기 때문입니다. 예를 들어, $Y=X^2$, $X \sim \mathrm{N}(0, \sigma^2)$의 경우, X와 Y는 비선형 관계가 있습니다. 즉, 독립이 아닙니다. 그러나 $ \mathrm{Cov}(X,Y)$를 계산해보면 0이 됩니다.
그림 1. 시간 축에 따라 white noise가 표준 정규분포를 따름.
위 그림에서 표준 정규분포에 해당하는 부분에서 랜덤 하게 1개씩 뽑혀 나오면, white noise에 해당하는 표준 정규분포인 확률변수가 실현된 것이라고 할 수 있습니다.
그림 2. 표준 정규분포를 따르는 white noise가 실현.
다음 포스팅에서는 정상성(stationary)에 대해 살펴보겠습니다.
도움이 되셨다면, ♥공감 버튼을 눌러주세요.
감사합니다.
'⏱시계열분석' 카테고리의 다른 글
시계열 분석3. 자기상관(autocorrelation)이란? (0) | 2022.03.18 |
---|---|
시계열 분석2. 정상성(stationarity)이란? (0) | 2022.03.11 |
댓글
이 글 공유하기
다른 글
-
시계열 분석3. 자기상관(autocorrelation)이란?
시계열 분석3. 자기상관(autocorrelation)이란?
2022.03.18 -
시계열 분석2. 정상성(stationarity)이란?
시계열 분석2. 정상성(stationarity)이란?
2022.03.11