对任意的随机变量$X$和$Y$ ,协方差以及相关性测量通过以下定义给出

协方差:$\operatorname{Cov}[X,Y]=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]$

相关性是介于 -1 和 1 之间的协方差的缩放表现,其中1表示强正相关,0 表示独立性,-1 表示强负相关,但通常相关性指的是线性的相关性。

相关性:$\operatorname{Corr}[X,Y]=\operatorname{Cov}[X,Y]/\sqrt{\mathrm{Var}[X]\mathrm{Var}[Y]}$

对于一个时间序列过程,定义随机变量$(X_t,X_s)$是在不同时间点的测量。它们之间的依赖关系由自协方差和自相关函数描述,添加“auto”前缀以表示两个随机变量测量具有相同的数量。

对于所有的$s,t\in T$ ,自协方差函数(autocovariance function (ACVF))定义为:

$$ \gamma_{s,t}=\mathrm{Cov}[X_s,X_t]=\mathbb{E}[X_sX_t]-\mathbb{E}[X_t]\mathbb{E}[X_s] $$

其中

$$ \gamma_{t,t}=\mathrm{Cov}[X_t,X_t]=\mathrm{Var}[X_t]=\sigma_t^2\:。 $$

对于所有的$s,t\in T$ ,自相关函数(autocorrelation function(ACF))定义为:

$$ \rho_{s,t}=\mathrm{Corr}[X_s,X_t]=\frac{\mathrm{Cov}[X_s,X_t]}{\sqrt{\mathrm{Var}[X_s]\mathrm{Var}[X_t]}}=\frac{\gamma_{s,t}}{\sigma_s\sigma_t} $$

其中

$$ \rho_{t,t}=\mathrm{Corr}[X_t,X_t]=1 $$

以上定义都是理想的情况,也就是在时刻$s$和时刻$t$均有若干个采样数据,这样才能计算$\mathbb{E}[X_s]$ 或者$\mathbb{E}[X_t]$ ,而真实的场景下这一条件却很难实现,因为通常在某一个时间点,只能获得1个采样点的数据。

为了计算真实数据的自协方差和自相关函数,通常假设数据中的依赖结构不随时间变化。也就是说我们假设

$$ \quad\gamma_{s,t}=\mathrm{Cov}[X_s,X_t]=\mathrm{Cov}[X_{s+r},X_{t+r}]=\gamma_{s+r,t+r} $$

也就是说在这个假设下,影响协方差的唯一因素是两个时间序列中随机变量的距离$\tau=|s-t|$ ,这个距离通常称为滞后(lag)。因此,唯一需要计算的是自协方差集合:

$$ \begin{array}{ccc}&\gamma_t=\mathrm{Cov}[X_t,X_{t+\tau}]&\tau=0,1,2,\ldots\end{array} $$

在这种情况下,自相关函数变为

$$ \rho_t=\mathrm{Corr}[X_t,X_{t+\tau}]=\frac{\mathrm{Cov}[X_t,X_{t+\tau}]}{\sqrt{\mathrm{Var}[X_t]\mathrm{Var}[X_{t+r}]}}=\frac{\gamma_\tau}{\gamma_0} $$

以上计算方式的前提是假设数据中的依赖结构不随时间变化,协方差不依赖于具体的位置$t$ ,只依赖于滞后$\tau$ 。

对于时间序列数据,自协方差和自相关函数测量的是单个时间序列$x_1,\ldots,x_n$与其滞后lag之间的协方差/相关性。这里给出$\log=0$ ,$\log=1$以及$\log=\tau$时自协方差及自相关函数的计算过程。

$lag=0$

在滞后0 (lag=0) 处样本的自协方差函数定义为$\hat{\gamma}_0$ ,它是$(x_1,\ldots,x_n)$与$(x_1,\ldots,x_n)$之间的协方差。根据上面的公式,计算方式为

$$ \hat{\gamma}_0=\frac{1}{n-1}\sum_{t=1}^n(x_t-\bar{x})(x_t-\bar{x})=\frac{1}{n-1}\sum_{t=1}^n\left(x_t-\bar{x}\right)^2=\hat{\sigma}^2 $$

因此,滞后0处的样本自协方差函数是样本方差。类似地,滞后0处的自相关性为

$$ \hat{\rho}_0=\frac{\sum_{t-1}^n(x_t-\bar{x})(x_t-\bar{x})}{\sqrt{\sum_{t-1}^n(x_t-\bar{x})^2\sum_{t=1}^n(x_t-\bar{x})^2}}=1 $$

$lag=1$

在滞后1(lag=1)处的样本自协方差函数是时间序列$(x_1,\ldots,x_{n-1})$和$(x_2,\ldots,x_n)$协方差。它是序列与自身移动一个时间点序列的协方差,根据以上公式,协方差和自相关系数计算方式为

$$ \hat{\gamma}_1=\frac{1}{n-2}\sum_{t=1}^{n-1}(x_t-\bar{x}_1)(x_{t+1}-\bar{x}_2) $$

$$ \hat{\rho}_1=\frac{\sum_{t=1}^{n-1}(x_t-\bar{x}_1)(x_{t+1}-\bar{x}_2)}{\sqrt{\sum_{t=1}^{n-1}(x_t-\bar{x}_1)^2\sum_{t=1}^{n-1}(x_{t+1}-\bar{x}_2)}} $$

其中

$$ \bar{x}_1=\sum_{t-1}^{n-1}x_t/(n-1)是前n-1个观测值 $$

$$ \bar{x}_2=\sum_{t-2}^nx_t/\left(n-1\right)是后n-1个观测值 $$

在实际应用中,通常假设前 n-1 个观测值的均值和方差等于最后 n-1 个观测值的均值和方差,这样可以简化上述表达式。此外,对于协方差公式,使用除数 n 而不是无偏 n-2。显然,当 n 很大时, 改变除数对计算几乎没有实际影响。

$lag=\tau$

时间序列的样本自协方差函数(ACVF)定义为:

$$ \hat{\gamma}_\tau=\frac{1}{n}\sum_{t=1}^{n-\tau}(x_t-\bar{x})(x_{t+\tau}-\bar{x})\quad\tau=0,1,\ldots $$

样本自相关函数(ACF)定义为

$$ \hat{\rho}_\tau=\frac{\sum_{t=1}^{n-\tau}(x_t-\bar{x})(x_{t+\tau}-\bar{x})}{\sum_{t=1}^n(x_t-\bar{x})^2}=\frac{\hat{\gamma}_\tau}{\hat{\gamma}_0}\quad\tau=0,1,\ldots $$

最后修改:2024 年 06 月 30 日
如果觉得我的文章对你有用,请随意赞赏
END
本文作者:
文章标题:时间序列中自协方差与自相关函数的关系
本文地址:https://www.xuezhao.space/ts-cov-corr.html
版权说明:若无注明,本文皆海拉鲁打怪日记原创,转载请保留文章出处。