时间序列中自协方差与自相关函数的关系

xuezhao.d

2024 年 06 月 30 日

2406 次浏览

暂无评论

3199字数

数理统计

对任意的随机变量$X$和$Y$ ,协方差以及相关性测量通过以下定义给出

协方差：$\operatorname{Cov}[X,Y]=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]$

相关性是介于 -1 和 1 之间的协方差的缩放表现，其中1表示强正相关，0 表示独立性，-1 表示强负相关，但通常相关性指的是线性的相关性。

相关性：$\operatorname{Corr}[X,Y]=\operatorname{Cov}[X,Y]/\sqrt{\mathrm{Var}[X]\mathrm{Var}[Y]}$

对于一个时间序列过程，定义随机变量$(X_t,X_s)$是在不同时间点的测量。它们之间的依赖关系由自协方差和自相关函数描述，添加“auto”前缀以表示两个随机变量测量具有相同的数量。

对于所有的$s,t\in T$ ,自协方差函数(autocovariance function (ACVF))定义为：

$$ \gamma_{s,t}=\mathrm{Cov}[X_s,X_t]=\mathbb{E}[X_sX_t]-\mathbb{E}[X_t]\mathbb{E}[X_s] $$

其中

$$ \gamma_{t,t}=\mathrm{Cov}[X_t,X_t]=\mathrm{Var}[X_t]=\sigma_t^2\:。 $$

对于所有的$s,t\in T$ ,自相关函数(autocorrelation function(ACF))定义为：

$$ \rho_{s,t}=\mathrm{Corr}[X_s,X_t]=\frac{\mathrm{Cov}[X_s,X_t]}{\sqrt{\mathrm{Var}[X_s]\mathrm{Var}[X_t]}}=\frac{\gamma_{s,t}}{\sigma_s\sigma_t} $$

其中

$$ \rho_{t,t}=\mathrm{Corr}[X_t,X_t]=1 $$

以上定义都是理想的情况，也就是在时刻$s$和时刻$t$均有若干个采样数据，这样才能计算$\mathbb{E}[X_s]$ 或者$\mathbb{E}[X_t]$ ,而真实的场景下这一条件却很难实现，因为通常在某一个时间点，只能获得1个采样点的数据。

为了计算真实数据的自协方差和自相关函数，通常假设数据中的依赖结构不随时间变化。也就是说我们假设

$$ \quad\gamma_{s,t}=\mathrm{Cov}[X_s,X_t]=\mathrm{Cov}[X_{s+r},X_{t+r}]=\gamma_{s+r,t+r} $$

也就是说在这个假设下，影响协方差的唯一因素是两个时间序列中随机变量的距离$\tau=|s-t|$ ,这个距离通常称为滞后(lag)。因此，唯一需要计算的是自协方差集合：

$$ \begin{array}{ccc}&\gamma_t=\mathrm{Cov}[X_t,X_{t+\tau}]&\tau=0,1,2,\ldots\end{array} $$

在这种情况下，自相关函数变为

$$ \rho_t=\mathrm{Corr}[X_t,X_{t+\tau}]=\frac{\mathrm{Cov}[X_t,X_{t+\tau}]}{\sqrt{\mathrm{Var}[X_t]\mathrm{Var}[X_{t+r}]}}=\frac{\gamma_\tau}{\gamma_0} $$

以上计算方式的前提是假设数据中的依赖结构不随时间变化，协方差不依赖于具体的位置$t$ ,只依赖于滞后$\tau$ 。

对于时间序列数据，自协方差和自相关函数测量的是单个时间序列$x_1,\ldots,x_n$与其滞后lag之间的协方差/相关性。这里给出$\log=0$ ,$\log=1$以及$\log=\tau$时自协方差及自相关函数的计算过程。

$lag=0$

在滞后0 (lag=0) 处样本的自协方差函数定义为$\hat{\gamma}_0$ ,它是$(x_1,\ldots,x_n)$与$(x_1,\ldots,x_n)$之间的协方差。根据上面的公式，计算方式为

$$ \hat{\gamma}_0=\frac{1}{n-1}\sum_{t=1}^n(x_t-\bar{x})(x_t-\bar{x})=\frac{1}{n-1}\sum_{t=1}^n\left(x_t-\bar{x}\right)^2=\hat{\sigma}^2 $$

因此，滞后0处的样本自协方差函数是样本方差。类似地，滞后0处的自相关性为

$$ \hat{\rho}_0=\frac{\sum_{t-1}^n(x_t-\bar{x})(x_t-\bar{x})}{\sqrt{\sum_{t-1}^n(x_t-\bar{x})^2\sum_{t=1}^n(x_t-\bar{x})^2}}=1 $$

$lag=1$

在滞后1(lag=1)处的样本自协方差函数是时间序列$(x_1,\ldots,x_{n-1})$和$(x_2,\ldots,x_n)$协方差。它是序列与自身移动一个时间点序列的协方差，根据以上公式，协方差和自相关系数计算方式为

$$ \hat{\gamma}_1=\frac{1}{n-2}\sum_{t=1}^{n-1}(x_t-\bar{x}_1)(x_{t+1}-\bar{x}_2) $$

及

$$ \hat{\rho}_1=\frac{\sum_{t=1}^{n-1}(x_t-\bar{x}_1)(x_{t+1}-\bar{x}_2)}{\sqrt{\sum_{t=1}^{n-1}(x_t-\bar{x}_1)^2\sum_{t=1}^{n-1}(x_{t+1}-\bar{x}_2)}} $$

其中

$$ \bar{x}_1=\sum_{t-1}^{n-1}x_t/(n-1)是前n-1个观测值 $$

$$ \bar{x}_2=\sum_{t-2}^nx_t/\left(n-1\right)是后n-1个观测值 $$

在实际应用中，通常假设前 n-1 个观测值的均值和方差等于最后 n-1 个观测值的均值和方差，这样可以简化上述表达式。此外，对于协方差公式，使用除数 n 而不是无偏 n-2。显然，当 n 很大时，改变除数对计算几乎没有实际影响。

$lag=\tau$

时间序列的样本自协方差函数(ACVF)定义为：

$$ \hat{\gamma}_\tau=\frac{1}{n}\sum_{t=1}^{n-\tau}(x_t-\bar{x})(x_{t+\tau}-\bar{x})\quad\tau=0,1,\ldots $$

样本自相关函数(ACF)定义为

$$ \hat{\rho}_\tau=\frac{\sum_{t=1}^{n-\tau}(x_t-\bar{x})(x_{t+\tau}-\bar{x})}{\sum_{t=1}^n(x_t-\bar{x})^2}=\frac{\hat{\gamma}_\tau}{\hat{\gamma}_0}\quad\tau=0,1,\ldots $$