5.2 常用的特征清单

尽管特征生成的方法千差万别,而且十分依赖于你的特定数据集,想象力,编程能力和领域知识,仍然有一些很常用的特征生成的方法,它们包括了:

  • 均值和方差

  • 最大值和最小值

  • 第一个值和最后一个值的差值

  • 局部最大值和局部最小值的数量

  • 周期性和自相关性

除了手动创建以上这些特征,在python一些库中内置了更多封装好的时间序列特征供用户选择调用,著名的两个库是tsfreshcesium,感兴趣的可以去官方文档查阅更多信息。

https://tsfresh.readthedocs.io/en/latest/

http://cesium-ml.org/docs/

tsfresh提供了几十种时间序列特征,避免使用者重复造轮子,能帮助我们更高效生成特征,并且这个库的设计能够和机器学习库sklearn实现对接,建模更方便。

在这个链接可以查看tsfresh库全部的生成特征的方法。

https://tsfresh.readthedocs.io/en/latest/text/list_of_features.html

类似的,在这个链接可以查看cesium库全部的生成特征的方法。

http://cesium-ml.org/docs/feature_table.html

需要注意的是,你可能会发现很多时间序列特征生成的过程是很耗时的,如果能事先结合经验和领域知识预判哪些特征是无意义的,不相关的,可以为我们节省很多计算上的时间。

Last updated