5. 特征生成和特征选择

在之前的章节中，用到的分析方法都用到了时间序列中所有的数据点，而在接下来要介绍的机器学习部分，我们并不会用到全部的数据点，因此在本章引入了特征生成的概念。特征生成是一个找到一种量化的方式，从时间序列中提取出最重要的信息，生成一些数值和类别标签。本质上特征生成做的是压缩原数据，生成一组具有足够代表性的更小的数据。例如用均值和时间点的数量表示原时间序列数据就是一个最简单的例子。在本章，我们将首先讨论利用经验或行业知识手动生成特征的思路，但是在实际工程中，由于涉及到的特征非常多，完全依靠人工生成特征的方式是不理想的，最后一节会进一步介绍如何使用python自动生成特征和特征选择。