Requests库
爬虫必备库,鼎鼎大名,用来发动get、post等申请,能够算是url库在python3的继承者。
BeautifulSoup库
爬虫必备库,也是很有名,用来解析html代码,从中提取有用数据。个别举荐搭配lxml解析库应用,有些代码遇到解析问题,能够尝试用html.parser库代替。
tqdm库
能够用来作进度条,展现程序执行进度,比方爬虫的日志。然而留神,在windows命令行中,无奈实现同行刷新,每次都会输入一行新的,就不举荐应用了。(powershell下没试过)
peewee库
用来做数据库模型很好用,当然也能够间接用sqlalchemy库。这个库我集体感觉,比后者学起来要简略一些,而且能够用命令行在模型类和数据库表构造之间一键导入导出。
Arrow库
集体感觉最好用的工夫转换库,强烈推荐。反对各种格局,并且api可读性也很好,不便切换前后N天N周等。
PIL库
python最佳图形处理库,我只用它做过图像裁切转换拼接等,据说能够实现一一像素批改、检测、计算等,在图像识别畛域也有很多用处。
OpenPyxl
我集体比拟喜爱的office文档解决库,用来解决excel很不便。然而貌似不适用于大批量解决数据,大批量还是举荐pandas库,间接加载csv文件。
Jsonlines库
微信小程序开发能够用用,微信云开发应用的是json lines格局,算是json的变体,转换起来还是有些麻烦的,要本人写一下,用这个能够略微节俭点工夫精力。
PyPinyin库
用来把汉字转换拼音的,须要本人写一个函数,把转换好的拼音拼接起来,否则是一个字一个拼音,是数组格局。