时序数据库arcticdb使用总结

  • arcticdb是专门为量化设计的数据库,读写都是使用pandas.DataFrame,其使用简单,配置方便,相对而言,功能单一且数据只能按照时间序列或者可排序的序列进行存储,无法设置多个index
    • 经过实际案例得知,使用时间序列或者将时间序列作为第一列index,使用多个索引可以常规写入与查询,但是update与append操作会只按照时间序列作为索引操作,导致数据被替换
    • 写入数据的方法中,wtire无法去重,append与update有时间序列索引的要求.这样就断绝了使用非时间序列等不可排序的类型作为索引的途径.所以最好的使用方法就是使用单列时间序列作为索引,如果有不同的索引使用不同的符号或者将index转化为columns的形式
      • write会创建新版本(只有写入数据),如果写入的同时传入prune_previous_versions=True删除旧版本的话,那么就只有最新版本的数据,也就是只有最新写入的数据在库中
      • append写入最新的数据,有index的要求,会和历史数据创建最新的版本
      • update同上,会替换更新的data中的index范围.
    • 版本的功能应该是针对量化研究在原本的数据的基础上添加多个columns所应用的,或者是回测的时候,可以指定回测的时间版本
    • 写入数据的时候因为使用的是严格架构,所以需要设计表格列与dtypes.考虑过将这些元数据储存在metadata中,但是既然是严格的架构,直接在代码中体现就可以.
  • 总上,arcticdb仅适用于时间序列的数据,如果有多个index需要创建只能转化数据架构
posted @ 2025-02-05 16:02  meizhengchao  阅读(89)  评论(0编辑  收藏  举报