对任意的随机变量和 ,协方差以及相关性测量通过以下定义给出
协方差:$\operatorname{Cov}[X,Y]=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]$
相关性是介于 -1 和 1 之间的协方差的缩放表现,其中1表示强正相关,0 表示独立性,-1 表示强负相关,但通常相关性指的是线性的相关性。
相关性:$\operatorname{Corr}[X,Y]=\operatorname{Cov}[X,Y]/\sqrt{\mathrm{Var}[X]\mathrm{Var}[Y]}$
对于一个时间序列过程,定义随机变量是在不同时间点的测量。它们之间的依赖关系由自协方差和自相关函数描述,添加“auto”前缀以表示两个随机变量测量具有相同的数量。
对于所有的 ,自协方差函数(autocovariance function (ACVF))定义为:
其中
$$ \gamma_{t,t}=\mathrm{Cov}[X_t,X_t]=\mathrm{Var}[X_t]=\sigma_t^2\:。 $$
对于所有的 ,自相关函数(autocorrelation function(ACF))定义为:
其中
以上定义都是理想的情况,也就是在时刻和时刻均有若干个采样数据,这样才能计算 或者 ,而真实的场景下这一条件却很难实现,因为通常在某一个时间点,只能获得1个采样点的数据。
为了计算真实数据的自协方差和自相关函数,通常假设数据中的依赖结构不随时间变化。也就是说我们假设
也就是说在这个假设下,影响协方差的唯一因素是两个时间序列中随机变量的距离 ,这个距离通常称为滞后(lag)。因此,唯一需要计算的是自协方差集合:
在这种情况下,自相关函数变为
以上计算方式的前提是假设数据中的依赖结构不随时间变化,协方差不依赖于具体的位置 ,只依赖于滞后 。
对于时间序列数据,自协方差和自相关函数测量的是单个时间序列与其滞后lag之间的协方差/相关性。这里给出 ,以及时自协方差及自相关函数的计算过程。
在滞后0 (lag=0) 处样本的自协方差函数定义为 ,它是与之间的协方差。根据上面的公式,计算方式为
因此,滞后0处的样本自协方差函数是样本方差。类似地,滞后0处的自相关性为
在滞后1(lag=1)处的样本自协方差函数是时间序列和协方差。它是序列与自身移动一个时间点序列的协方差,根据以上公式,协方差和自相关系数计算方式为
及
其中
$$ \bar{x}_1=\sum_{t-1}^{n-1}x_t/(n-1)是前n-1个观测值 $$
$$ \bar{x}_2=\sum_{t-2}^nx_t/\left(n-1\right)是后n-1个观测值 $$
在实际应用中,通常假设前 n-1 个观测值的均值和方差等于最后 n-1 个观测值的均值和方差,这样可以简化上述表达式。此外,对于协方差公式,使用除数 n 而不是无偏 n-2。显然,当 n 很大时, 改变除数对计算几乎没有实际影响。
时间序列的样本自协方差函数(ACVF)定义为:
样本自相关函数(ACF)定义为