• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

用 Python 做策略回测,耗时很长,有什么加速办法?

python 搞代码 4年前 (2022-01-09) 37次浏览 已收录 0个评论
文章目录[隐藏]

用python 做策略回测,耗时很长。40万条数据花了快一个小时。
想问下,通常50万数量级的数据的回测用时多少?(简单策略,一支股票一年的tick差不多40万)
有什么加速办法?
—————————————————————————————–分割线
首先真诚感谢各位帮助。回馈知乎,附上我最后的处理方法。
本人最后使用了cython 来处理python 中for loop 的部分, 运行时间缩短显著。建议无法对数据实行整列计算,而只能选择loop, 逐个数据递推,来生成一列数据的情况。可以使用cython处理loop部分。

直接上图,下面是一个生成列的小测试,分别计算两种方法效率。用时相差2个数量级。

回复内容:

少用for,尽量用numpy/pandas的向量化方法。
少用自己写的python方法,先看看numpy /pandas是不是已有现成的功能。
有几个numpy 的加速包,比如numexpr.
安装Intel MKL.
最后,可以讲关键部分用c/c++实现。

如果无法避开python的for,建议使用Numba来提速,理想情况下可以达到和numpy向量化差不多的速度。
我只能帮你到这里了||-_-我觉得多少是你的算法有问题。
在排除算法问题后可以用PyPy尝试加速一下。2016.4.19做的回测,80万条数据用了3分半跑完(四进程)。本文来源gaodai#ma#com搞@@代~&码*网2
用python想降低回测时延,可以从下面几个角度下功夫:
1.有几个cpu核开几个进程,记得不是线程是进程。
2.在数据结构和算法上下功夫。
3.在CPU cache命中率上下功夫,loop时操作的数据尽可能在内存上紧凑,不要在loop里遍历pandas的列,因为这会导致cache命中率大幅降低。而CPU访问内存的时延远在访问cache之上。楼主回测时延高问题应该就出在这里。可以把pandas的列转换成list再在loop中使用。可以考虑先用更大的barsize,再优化你的程序,各种加速等等。楼主做的tick级的回测,一次几只股票回测几年?如果楼主长期做类似工作,且不是专业码农,最低成本的办法还是:
1.升级高频CPU(假设楼主你就简单写写,不做并行计算,python毕竟全局解释锁)
2.原代码大量用数据库就上SSD/内存表,大量读磁盘就用RAMDISK,如果原代码就已经一次性载入内存就忽视这一条。
3.用pypy,cython等不修改代码的优化方式。

总结:先根据先有代码优化硬件,然后使用不需要修改(少修改)代码的优化方式。一般来说,硬件比人工便宜。如果这还不能解决问题,再用各种奇淫巧技。先做profile,在耗时较多的地方,通常是for循环,用cython替换没代码,没算法,没数据,没profile谈什么优化Python 算很快的了 题主用过matlab 就知道什么叫做慢了
实在不行换sas呗 40万条简单运算估计也就10-20min
之前用过pandas处理过阿里巴巴大数据比赛的1000万行数据,反正速度是比较快的每次操作都是只有十几秒,可能做的方式不一样比较简单的操作吧,不过你那个的确稍微慢了点


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:用 Python 做策略回测,耗时很长,有什么加速办法?
喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址