前言
我们在用Python进行机器学习建模项目的时候,每个人都会有自己的一套项目文件管理的习惯,我自己也有一套方法,是自己曾经踩过的坑踩过的雷总结出来的,现在在这里分享一下给大家,因为很多伙伴是接触Python编程入门不久,也希望大家少走弯路,多少有些地方可以给大家借鉴。
目录先放出来
- 项目文件事先做好归档
- 永远不要手动修改源数据并且做好备份
- 做好路径的正确配置
- 代码必要的地方做好备注与说明
- 加速你的Python循环代码
- 可视化你的循环代码进度
- 使用高效的异常捕获工具
- 要多考虑代码健壮性
1. 项目文件事先做好归档
每次开始一个新工作的时候,以前的我总是贪图方便,Code、Data、文档都集中放在一个文件夹内,看起来很乱,一度让回溯过程十分痛苦,或者是换了部电脑,文件全都运行不行了,需要自行修改路径,十分痛苦。
经过自己一番探索,大家可以大致将项目分成几个子文件夹,code放在主文件夹里:
2. 永远不要手动修改源数据并且做好备份
我们需要对源数据进行好备份,方便我们下一次进行回溯,可以进行下一步的操作或者是对中间步骤的修改,而且,对代码等其他文件也是需要做好备份的,以免出现意外丢失。
这里来自良许Linux 的一篇文章,推荐了4个工具:
- Git版本控制系统
- Rsync文件备份
- Dropbox云存储
- Time Machine时光机器
更多的工具介绍和使用我这边就不展开,大家可以去自行了解呗。
3. 做好路径的正确配置
很多同学在写路径的时候都很喜欢直接用绝对路径,虽然一般情况下不会有什么问
题,但如果代码共享给其他人学习或者运行的时候,问题就来了,很多情况下都不能直接跑通,
这里建议:
- 使用相对路径:脚本位于主目录下,其他资源(如数据、第三方包等)在其同级或低级目录下,如 ./data/processed/test1.csv
- 全局路径配置变量:
# 设置主目录 HOME_PATH = r'E:ML90615- PROJECT1' # 读取数据 data = open(HOME_PATH+'/data/processed/test1.csv') data = pd.read_csv(data) data.head()
4. 代码必要的地方做好备注与说明
这个我相信大多数人都感同身受了,不信?拿回一个月前自己写的代码看看吧,看一下能看懂多少(如果没有做好备注说明的话)
5. 加速你的Python循环代码
这里推荐 云哥(Python与算法之美)的一篇文章:24式加速你的python
收藏起来,多看多几次,养成好习惯呗,这样子你写代码才会越来越快~
6. 可视化你的循环代码进度
这里介绍一个Python库,tqdm,先安装一下:pip install tqdm
这个是一个可以显示循环进度的库,有了它就可以更加运筹帷幄了。
大家可以看下面的例子: