📗
TimeSeriesAnalysis101
  • 时间序列分析101:序言
  • 1. 概述
  • 2. 准备和处理时间序列数据
    • 2.1 准备数据集
    • 2.2 寻找时间轴
    • 2.3 时间序列可能遇到的问题
    • 2.4 清洗数据
      • 2.4.1 缺失值处理
      • 2.4.2 改变数据集时间频率
      • 2.4.3 平滑数据
  • 3. 探索式分析(EDA)
    • 3.1 针对时间序列的特殊方法
      • 3.1.1 理解平稳性
      • 3.1.2 寻找自相关
      • 3.1.3 虚假相关性
    • 3.2 常用的可视化图表
      • 3.2.1 1D可视化
      • 3.2.2 2D可视化
  • 4. 基于统计学的时间序列分析方法
    • 4.1 自回归模型(Autoregressive)
    • 4.2 移动平均模型(Moving Average)
    • 4.3 差分整合移动平均自回归模型(Autoregressive Integrated Moving Average)
    • 4.4 向量自回归模型(Vector Autoregression)
    • 4.5 基于统计学方法的优势与劣势
  • 5. 特征生成和特征选择
    • 5.1 特征工程的考虑
    • 5.2 常用的特征清单
    • 5.3 自动特征生成与选择
  • 6. 基于机器学习的时间序列分析方法
    • 6.1 时间序列分类问题
    • 6.2 时间序列聚类问题
  • 7. 基于深度学习的时间序列分析方法
    • 7.1 LSTM长短期记忆网络
      • 7.1.1 使用Pytorch搭建
      • 7.1.2 使用Darts调用
    • 7.2 CNN卷积神经网络
  • 8. 模型评估和性能考虑
    • 8.1 模型评估的考虑
    • 8.2 计算效率的考虑
Powered by GitBook
On this page

Was this helpful?

  1. 5. 特征生成和特征选择

5.2 常用的特征清单

Previous5.1 特征工程的考虑Next5.3 自动特征生成与选择

Last updated 3 years ago

Was this helpful?

尽管特征生成的方法千差万别,而且十分依赖于你的特定数据集,想象力,编程能力和领域知识,仍然有一些很常用的特征生成的方法,它们包括了:

  • 均值和方差

  • 最大值和最小值

  • 第一个值和最后一个值的差值

  • 局部最大值和局部最小值的数量

  • 周期性和自相关性

除了手动创建以上这些特征,在python一些库中内置了更多封装好的时间序列特征供用户选择调用,著名的两个库是tsfresh和cesium,感兴趣的可以去官方文档查阅更多信息。

tsfresh提供了几十种时间序列特征,避免使用者重复造轮子,能帮助我们更高效生成特征,并且这个库的设计能够和机器学习库sklearn实现对接,建模更方便。

在这个链接可以查看tsfresh库全部的生成特征的方法。

类似的,在这个链接可以查看cesium库全部的生成特征的方法。

需要注意的是,你可能会发现很多时间序列特征生成的过程是很耗时的,如果能事先结合经验和领域知识预判哪些特征是无意义的,不相关的,可以为我们节省很多计算上的时间。

https://tsfresh.readthedocs.io/en/latest/
http://cesium-ml.org/docs/
https://tsfresh.readthedocs.io/en/latest/text/list_of_features.html
http://cesium-ml.org/docs/feature_table.html