对任意的随机变量$X$和$Y$ ,协方差以及相关性测量通过以下定义给出
协方差:$\operatorname{Cov}[X,Y]=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]$
相关性是介于 -1 和 1 之间的协方差的缩放表现,其中1表示强正相关,0 表示独立性,-1 表示强负相关,但通常相关性指的是线性的相关性。
相关性:$\operatorname{Corr}[X,Y]=\operatorname{Cov}[X,Y]/\sqrt{\mathrm{Var}[X]\mathrm{Var}[Y]}$
对于一个时间序列过程,定义随机变量$(X_t,X_s)$是在不同时间点的测量。它们之间的依赖关系由自协方差和自相关函数描述,添加“auto”前缀以表示两个随机变量测量具有相同的数量。
对于所有的$s,t\in T$ ,自协方差函数(autocovariance function (ACVF))定义为:
$$ \gamma_{s,t}=\mathrm{Cov}[X_s,X_t]=\mathbb{E}[X_sX_t]-\mathbb{E}[X_t]\mathbb{E}[X_s] $$
其中
$$ \gamma_{t,t}=\mathrm{Cov}[X_t,X_t]=\mathrm{Var}[X_t]=\sigma_t^2\:。 $$
对于所有的$s,t\in T$ ,自相关函数(autocorrelation function(ACF))定义为:
$$ \rho_{s,t}=\mathrm{Corr}[X_s,X_t]=\frac{\mathrm{Cov}[X_s,X_t]}{\sqrt{\mathrm{Var}[X_s]\mathrm{Var}[X_t]}}=\frac{\gamma_{s,t}}{\sigma_s\sigma_t} $$
其中
$$ \rho_{t,t}=\mathrm{Corr}[X_t,X_t]=1 $$
以上定义都是理想的情况,也就是在时刻$s$和时刻$t$均有若干个采样数据,这样才能计算$\mathbb{E}[X_s]$ 或者$\mathbb{E}[X_t]$ ,而真实的场景下这一条件却很难实现,因为通常在某一个时间点,只能获得1个采样点的数据。
为了计算真实数据的自协方差和自相关函数,通常假设数据中的依赖结构不随时间变化。也就是说我们假设
$$ \quad\gamma_{s,t}=\mathrm{Cov}[X_s,X_t]=\mathrm{Cov}[X_{s+r},X_{t+r}]=\gamma_{s+r,t+r} $$
也就是说在这个假设下,影响协方差的唯一因素是两个时间序列中随机变量的距离$\tau=|s-t|$ ,这个距离通常称为滞后(lag)。因此,唯一需要计算的是自协方差集合:
$$ \begin{array}{ccc}&\gamma_t=\mathrm{Cov}[X_t,X_{t+\tau}]&\tau=0,1,2,\ldots\end{array} $$
在这种情况下,自相关函数变为
$$ \rho_t=\mathrm{Corr}[X_t,X_{t+\tau}]=\frac{\mathrm{Cov}[X_t,X_{t+\tau}]}{\sqrt{\mathrm{Var}[X_t]\mathrm{Var}[X_{t+r}]}}=\frac{\gamma_\tau}{\gamma_0} $$
以上计算方式的前提是假设数据中的依赖结构不随时间变化,协方差不依赖于具体的位置$t$ ,只依赖于滞后$\tau$ 。
对于时间序列数据,自协方差和自相关函数测量的是单个时间序列$x_1,\ldots,x_n$与其滞后lag之间的协方差/相关性。这里给出$\log=0$ ,$\log=1$以及$\log=\tau$时自协方差及自相关函数的计算过程。
$lag=0$
在滞后0 (lag=0) 处样本的自协方差函数定义为$\hat{\gamma}_0$ ,它是$(x_1,\ldots,x_n)$与$(x_1,\ldots,x_n)$之间的协方差。根据上面的公式,计算方式为
$$ \hat{\gamma}_0=\frac{1}{n-1}\sum_{t=1}^n(x_t-\bar{x})(x_t-\bar{x})=\frac{1}{n-1}\sum_{t=1}^n\left(x_t-\bar{x}\right)^2=\hat{\sigma}^2 $$
因此,滞后0处的样本自协方差函数是样本方差。类似地,滞后0处的自相关性为
$$ \hat{\rho}_0=\frac{\sum_{t-1}^n(x_t-\bar{x})(x_t-\bar{x})}{\sqrt{\sum_{t-1}^n(x_t-\bar{x})^2\sum_{t=1}^n(x_t-\bar{x})^2}}=1 $$
$lag=1$
在滞后1(lag=1)处的样本自协方差函数是时间序列$(x_1,\ldots,x_{n-1})$和$(x_2,\ldots,x_n)$协方差。它是序列与自身移动一个时间点序列的协方差,根据以上公式,协方差和自相关系数计算方式为
$$ \hat{\gamma}_1=\frac{1}{n-2}\sum_{t=1}^{n-1}(x_t-\bar{x}_1)(x_{t+1}-\bar{x}_2) $$
及
$$ \hat{\rho}_1=\frac{\sum_{t=1}^{n-1}(x_t-\bar{x}_1)(x_{t+1}-\bar{x}_2)}{\sqrt{\sum_{t=1}^{n-1}(x_t-\bar{x}_1)^2\sum_{t=1}^{n-1}(x_{t+1}-\bar{x}_2)}} $$
其中
$$ \bar{x}_1=\sum_{t-1}^{n-1}x_t/(n-1)是前n-1个观测值 $$
$$ \bar{x}_2=\sum_{t-2}^nx_t/\left(n-1\right)是后n-1个观测值 $$
在实际应用中,通常假设前 n-1 个观测值的均值和方差等于最后 n-1 个观测值的均值和方差,这样可以简化上述表达式。此外,对于协方差公式,使用除数 n 而不是无偏 n-2。显然,当 n 很大时, 改变除数对计算几乎没有实际影响。
$lag=\tau$
时间序列的样本自协方差函数(ACVF)定义为:
$$ \hat{\gamma}_\tau=\frac{1}{n}\sum_{t=1}^{n-\tau}(x_t-\bar{x})(x_{t+\tau}-\bar{x})\quad\tau=0,1,\ldots $$
样本自相关函数(ACF)定义为
$$ \hat{\rho}_\tau=\frac{\sum_{t=1}^{n-\tau}(x_t-\bar{x})(x_{t+\tau}-\bar{x})}{\sum_{t=1}^n(x_t-\bar{x})^2}=\frac{\hat{\gamma}_\tau}{\hat{\gamma}_0}\quad\tau=0,1,\ldots $$