5.2 常用的特征清单
尽管特征生成的方法千差万别,而且十分依赖于你的特定数据集,想象力,编程能力和领域知识,仍然有一些很常用的特征生成的方法,它们包括了:
均值和方差
最大值和最小值
第一个值和最后一个值的差值
局部最大值和局部最小值的数量
周期性和自相关性
除了手动创建以上这些特征,在python一些库中内置了更多封装好的时间序列特征供用户选择调用,著名的两个库是tsfresh
和cesium
,感兴趣的可以去官方文档查阅更多信息。
https://tsfresh.readthedocs.io/en/latest/
tsfresh提供了几十种时间序列特征,避免使用者重复造轮子,能帮助我们更高效生成特征,并且这个库的设计能够和机器学习库sklearn实现对接,建模更方便。
在这个链接可以查看tsfresh库全部的生成特征的方法。
https://tsfresh.readthedocs.io/en/latest/text/list_of_features.html
类似的,在这个链接可以查看cesium库全部的生成特征的方法。
http://cesium-ml.org/docs/feature_table.html
需要注意的是,你可能会发现很多时间序列特征生成的过程是很耗时的,如果能事先结合经验和领域知识预判哪些特征是无意义的,不相关的,可以为我们节省很多计算上的时间。
Last updated