3.1.3 虚假相关性

时间序列分析的新人分析师通常会从标准的探索性数据开始实践，例如将两个变量相互绘制并计算它们的相关性。当他们注意到变量之间非常强的相关性时，会非常兴奋。但是当分析师向其他人展示他们的发现，会意识到这一切都没有意义。有人会质疑指出相关性有些过于高了，并且当新人分析师尝试用更多变量重新运行他们的分析时，会发现更多变量之间也具有惊人的高相关性。但实际上我们都清楚，现实生活中有不可能有这么多真正的高相关性。

这个情况非常像计量经济学的早期历史。在 19 世纪，当经济学家第一次开始思考商业周期的概念时，他们去寻找影响周期的外部驱动因素，例如太阳黑子（11 年的周期）或各种气象周期（例如 4 年的降水周期）。他们总是得到非常积极和高度相关的结果，即使他们并没有因果关系来解释这些结果。这些都是所谓的虚假相关性。

具有潜在趋势的数据很可能产生虚假的相关性，例如碳排放量的上升和变暖的全球气温之间的相关性。除了趋势之外，时间序列的其他一些共同特征也会引入虚假相关性：

季节性，例如考虑夏天热狗消费量和溺水死亡人数的相关性
随着时间的推移，状态变化引起的数据水平或斜率变化
累计数量的相关性，这被许多行业广泛用于人为制造更强相关性的技巧

因此在实践中发现极强相关性的时候一定要结合行业经验仔细验证，不能盲目相信数据上的结果。

这个网站http://tylervigen.com/spurious-correlations，记录了许多虚假相关性的例子，表面上看起来相关关系都惊人的高。

例如这个美国在科技领域的花费和自杀率之间的时间序列相关性。

Previous3.1.2 寻找自相关 Next3.2 常用的可视化图表

Last updated 4 years ago