对任意的随机变量XXYY ,协方差以及相关性测量通过以下定义给出

协方差:$\operatorname{Cov}[X,Y]=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]$

相关性是介于 -1 和 1 之间的协方差的缩放表现,其中1表示强正相关,0 表示独立性,-1 表示强负相关,但通常相关性指的是线性的相关性。

相关性:$\operatorname{Corr}[X,Y]=\operatorname{Cov}[X,Y]/\sqrt{\mathrm{Var}[X]\mathrm{Var}[Y]}$

对于一个时间序列过程,定义随机变量(Xt,Xs)(X_t,X_s)是在不同时间点的测量。它们之间的依赖关系由自协方差和自相关函数描述,添加“auto”前缀以表示两个随机变量测量具有相同的数量。

对于所有的s,tTs,t\in T ,自协方差函数(autocovariance function (ACVF))定义为:

γs,t=Cov[Xs,Xt]=E[XsXt]E[Xt]E[Xs] \gamma_{s,t}=\mathrm{Cov}[X_s,X_t]=\mathbb{E}[X_sX_t]-\mathbb{E}[X_t]\mathbb{E}[X_s]

其中

$$ \gamma_{t,t}=\mathrm{Cov}[X_t,X_t]=\mathrm{Var}[X_t]=\sigma_t^2\:。 $$

对于所有的s,tTs,t\in T ,自相关函数(autocorrelation function(ACF))定义为:

ρs,t=Corr[Xs,Xt]=Cov[Xs,Xt]Var[Xs]Var[Xt]=γs,tσsσt \rho_{s,t}=\mathrm{Corr}[X_s,X_t]=\frac{\mathrm{Cov}[X_s,X_t]}{\sqrt{\mathrm{Var}[X_s]\mathrm{Var}[X_t]}}=\frac{\gamma_{s,t}}{\sigma_s\sigma_t}

其中

ρt,t=Corr[Xt,Xt]=1 \rho_{t,t}=\mathrm{Corr}[X_t,X_t]=1

以上定义都是理想的情况,也就是在时刻ss和时刻tt均有若干个采样数据,这样才能计算E[Xs]\mathbb{E}[X_s] 或者E[Xt]\mathbb{E}[X_t] ,而真实的场景下这一条件却很难实现,因为通常在某一个时间点,只能获得1个采样点的数据。

为了计算真实数据的自协方差和自相关函数,通常假设数据中的依赖结构不随时间变化。也就是说我们假设

γs,t=Cov[Xs,Xt]=Cov[Xs+r,Xt+r]=γs+r,t+r \quad\gamma_{s,t}=\mathrm{Cov}[X_s,X_t]=\mathrm{Cov}[X_{s+r},X_{t+r}]=\gamma_{s+r,t+r}

也就是说在这个假设下,影响协方差的唯一因素是两个时间序列中随机变量的距离τ=st\tau=|s-t| ,这个距离通常称为滞后(lag)。因此,唯一需要计算的是自协方差集合:

γt=Cov[Xt,Xt+τ]τ=0,1,2, \begin{array}{ccc}&\gamma_t=\mathrm{Cov}[X_t,X_{t+\tau}]&\tau=0,1,2,\ldots\end{array}

在这种情况下,自相关函数变为

ρt=Corr[Xt,Xt+τ]=Cov[Xt,Xt+τ]Var[Xt]Var[Xt+r]=γτγ0 \rho_t=\mathrm{Corr}[X_t,X_{t+\tau}]=\frac{\mathrm{Cov}[X_t,X_{t+\tau}]}{\sqrt{\mathrm{Var}[X_t]\mathrm{Var}[X_{t+r}]}}=\frac{\gamma_\tau}{\gamma_0}

以上计算方式的前提是假设数据中的依赖结构不随时间变化,协方差不依赖于具体的位置tt ,只依赖于滞后τ\tau

对于时间序列数据,自协方差和自相关函数测量的是单个时间序列x1,,xnx_1,\ldots,x_n与其滞后lag之间的协方差/相关性。这里给出log=0\log=0 ,log=1\log=1以及log=τ\log=\tau时自协方差及自相关函数的计算过程。

lag=0lag=0

在滞后0 (lag=0) 处样本的自协方差函数定义为γ^0\hat{\gamma}_0 ,它是(x1,,xn)(x_1,\ldots,x_n)(x1,,xn)(x_1,\ldots,x_n)之间的协方差。根据上面的公式,计算方式为

γ^0=1n1t=1n(xtx¯)(xtx¯)=1n1t=1n(xtx¯)2=σ^2 \hat{\gamma}_0=\frac{1}{n-1}\sum_{t=1}^n(x_t-\bar{x})(x_t-\bar{x})=\frac{1}{n-1}\sum_{t=1}^n\left(x_t-\bar{x}\right)^2=\hat{\sigma}^2

因此,滞后0处的样本自协方差函数是样本方差。类似地,滞后0处的自相关性为

ρ^0=t1n(xtx¯)(xtx¯)t1n(xtx¯)2t=1n(xtx¯)2=1 \hat{\rho}_0=\frac{\sum_{t-1}^n(x_t-\bar{x})(x_t-\bar{x})}{\sqrt{\sum_{t-1}^n(x_t-\bar{x})^2\sum_{t=1}^n(x_t-\bar{x})^2}}=1

lag=1lag=1

在滞后1(lag=1)处的样本自协方差函数是时间序列(x1,,xn1)(x_1,\ldots,x_{n-1})(x2,,xn)(x_2,\ldots,x_n)协方差。它是序列与自身移动一个时间点序列的协方差,根据以上公式,协方差和自相关系数计算方式为

γ^1=1n2t=1n1(xtx¯1)(xt+1x¯2) \hat{\gamma}_1=\frac{1}{n-2}\sum_{t=1}^{n-1}(x_t-\bar{x}_1)(x_{t+1}-\bar{x}_2)

ρ^1=t=1n1(xtx¯1)(xt+1x¯2)t=1n1(xtx¯1)2t=1n1(xt+1x¯2) \hat{\rho}_1=\frac{\sum_{t=1}^{n-1}(x_t-\bar{x}_1)(x_{t+1}-\bar{x}_2)}{\sqrt{\sum_{t=1}^{n-1}(x_t-\bar{x}_1)^2\sum_{t=1}^{n-1}(x_{t+1}-\bar{x}_2)}}

其中

$$ \bar{x}_1=\sum_{t-1}^{n-1}x_t/(n-1)是前n-1个观测值 $$

$$ \bar{x}_2=\sum_{t-2}^nx_t/\left(n-1\right)是后n-1个观测值 $$

在实际应用中,通常假设前 n-1 个观测值的均值和方差等于最后 n-1 个观测值的均值和方差,这样可以简化上述表达式。此外,对于协方差公式,使用除数 n 而不是无偏 n-2。显然,当 n 很大时, 改变除数对计算几乎没有实际影响。

lag=τlag=\tau

时间序列的样本自协方差函数(ACVF)定义为:

γ^τ=1nt=1nτ(xtx¯)(xt+τx¯)τ=0,1, \hat{\gamma}_\tau=\frac{1}{n}\sum_{t=1}^{n-\tau}(x_t-\bar{x})(x_{t+\tau}-\bar{x})\quad\tau=0,1,\ldots

样本自相关函数(ACF)定义为

ρ^τ=t=1nτ(xtx¯)(xt+τx¯)t=1n(xtx¯)2=γ^τγ^0τ=0,1, \hat{\rho}_\tau=\frac{\sum_{t=1}^{n-\tau}(x_t-\bar{x})(x_{t+\tau}-\bar{x})}{\sum_{t=1}^n(x_t-\bar{x})^2}=\frac{\hat{\gamma}_\tau}{\hat{\gamma}_0}\quad\tau=0,1,\ldots

最后修改:2024 年 06 月 30 日
如果觉得我的文章对你有用,请随意赞赏
END
本文作者:
文章标题:时间序列中自协方差与自相关函数的关系
本文地址:https://www.xuezhao.space/ts-cov-corr.html
版权说明:若无注明,本文皆海拉鲁打怪日记原创,转载请保留文章出处。