• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

Python爬取股票数据,让你感受一下什么是一秒钟两千条数据

python 搞java代码 3年前 (2022-05-21) 11次浏览 已收录 0个评论

本文的文字及图片过滤网络,可以学习,交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于青灯编程,作者:清风

 

 

Python GUI编程:高清电影在线观看平台制作,全网电影免费看

https://www.bilibili.<a href="https://www.gaodaima.com/tag/com" title="查看更多关于com的文章" target="_blank">com</a>/video/BV1tz4y1o7Yc/
www#gaodaima.com来源gaodai.ma#com搞#代!码网搞代码

 

让你感受一下什么是一秒钟下载两千条数据。。

基本开发环境

  • Python 3.6
  • 皮查姆

相关模块的使用

<span><a href="https://www.gaodaima.com/tag/import" title="查看更多关于import的文章" target="_blank">import</a></span><span> csv
</span><span>import</span><span> time
</span><span>import</span><span> requests
</span><span>import</span> concurrent.futures

 

 

目标网页分析

 

 

一共214页的数据,每页数据20条,总计是4280。

 

:开发者工具,点击第二页,在XHR里面会出现数据。。

 

 

 

这是链接的参数,其中的pn对应就是页码,选择的第二页所以pn:2

 

如果细心的话,可以发现返回的数据并非是一个json数据。

 

这样的数据提取肯定是转换成json数据才好提取。这有两个方法:

 

方法一:

 

把参数中的< cb:jQuery1124036392017581464287_1608882113715 >去掉,不打算进去,就可以直接以response.json()的形式输出。

 

<span>import</span><span> requests


url </span>= <span>"</span><span>http://49.push2.eastmoney.com/api/qt/clist/get</span><span>"</span><span>


params </span>=<span> {
    </span><span>#</span><span> "cb": "jQuery1124036392017581464287_1608882113715",</span>
    <span>"</span><span>pn</span><span>"</span>: <span>"</span><span>2</span><span>"</span><span>,
    </span><span>"</span><span>pz</span><span>"</span>: <span>"</span><span>20</span><span>"</span><span>,
    </span><span>"</span><span>po</span><span>"</span>: <span>"</span><span>1</span><span>"</span><span>,
    </span><span>"</span><span>np</span><span>"</span>: <span>"</span><span>1</span><span>"</span><span>,
    </span><span>"</span><span>ut</span><span>"</span>: <span>"</span><span>bd1d9ddb04089700cf9c27f6f7426281</span><span>"</span><span>,
    </span><span>"</span><span>fltt</span><span>"</span>: <span>"</span><span>2</span><span>"</span><span>,
    </span><span>"</span><span>invt</span><span>"</span>: <span>"</span><span>2</span><span>"</span><span>,
    </span><span>"</span><span>fid</span><span>"</span>: <span>"</span><span>f3</span><span>"</span><span>,
    </span><span>"</span><span>fs</span><span>"</span>: <span>"</span><span>m:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23</span><span>"</span><span>,
    </span><span>"</span><span>fields</span><span>"</span>: <span>"</span><span>f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152</span><span>"</span><span>,
    </span><span>"</span><span>_</span><span>"</span>: <span>"</span><span>1608882115527</span><span>"</span><span>,
}


headers </span>=<span> {
    </span><span>"</span><span>User-Agent</span><span>"</span>: <span>"</span><span>Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36</span><span>"</span><span>
}
response </span>= requests.get(url=url, params=params, headers=<span>headers)
html_data </span>=<span> response.json()
stock_data </span>= html_data[<span>"</span><span>data</span><span>"</span>][<span>"</span><span>diff</span><span>"</span>]

 

 

方法二:

 

1,正常参数,请求网页返回数据response.txt

2,用正则匹配 jQuery1124036392017581464287_1608882113715(。*?) 匹配中间的数据

3,通过导入json模块,串联转json数据json.loads

<span>import</span><span> pprint
</span><span>import</span><span> re
</span><span>import</span><span> requests
</span><span>import</span><span> json
url </span>= <span>"</span><span>http://49.push2.eastmoney.com/api/qt/clist/get</span><span>"</span><span>


params </span>=<span> {
    </span><span>"</span><span>cb</span><span>"</span>: <span>"</span><span>jQuery1124036392017581464287_1608882113715</span><span>"</span><span>,
    </span><span>"</span><span>pn</span><span>"</span>: <span>"</span><span>2</span><span>"</span><span>,
    </span><span>"</span><span>pz</span><span>"</span>: <span>"</span><span>20</span><span>"</span><span>,
    </span><span>"</span><span>po</span><span>"</span>: <span>"</span><span>1</span><span>"</span><span>,
    </span><span>"</span><span>np</span><span>"</span>: <span>"</span><span>1</span><span>"</span><span>,
    </span><span>"</span><span>ut</span><span>"</span>: <span>"</span><span>bd1d9ddb04089700cf9c27f6f7426281</span><span>"</span><span>,
    </span><span>"</span><span>fltt</span><span>"</span>: <span>"</span><span>2</span><span>"</span><span>,
    </span><span>"</span><span>invt</span><span>"</span>: <span>"</span><span>2</span><span>"</span><span>,
    </span><span>"</span><span>fid</span><span>"</span>: <span>"</span><span>f3</span><span>"</span><span>,
    </span><span>"</span><span>fs</span><span>"</span>: <span>"</span><span>m:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23</span><span>"</span><span>,
    </span><span>"</span><span>fields</span><span>"</span>: <span>"</span><span>f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152</span><span>"</span><span>,
    </span><span>"</span><span>_</span><span>"</span>: <span>"</span><span>1608882115527</span><span>"</span><span>,
}


headers </span>=<span> {
    </span><span>"</span><span>User-Agent</span><span>"</span>: <span>"</span><span>Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36</span><span>"</span><span>
}
response </span>= requests.get(url=url, params=params, headers=<span>headers)
result </span>= re.findall(<span>"</span><span>jQuery1124036392017581464287_1608882113715((.*?));</span><span>"</span><span>, response.text)[0]
html_data </span>=<span> json.loads(result)
stock_data </span>= html_data[<span>"</span><span>data</span><span>"</span>][<span>"</span><span>diff</span><span>"</span><span>]
pprint.pprint(stock_data)</span>

 

 

对于这个网站,以上两种方法都是可以的,但是一般建议使用第二种方式,因为第一种方式毕竟是投机取巧。

 

取值之后是一个列表的数据,通过用于循环遍历即可,获取每一支股票的相关数据了,通过键值对取值获取相对应的数据即可。

<span>for</span> i <span>in</span><span> stock_data:
    dit </span>=<span> {
        </span><span>"</span><span>代码</span><span>"</span>: i[<span>"</span><span>f12</span><span>"</span><span>],
        </span><span>"</span><span>名称</span><span>"</span>: i[<span>"</span><span>f14</span><span>"</span><span>],
        </span><span>"</span><span>最新价</span><span>"</span>: i[<span>"</span><span>f2</span><span>"</span><span>],
        </span><span>"</span><span>涨跌幅</span><span>"</span>: str(i[<span>"</span><span>f3</span><span>"</span>]) + <span>"</span><span>%</span><span>"</span><span>,
        </span><span>"</span><span>涨跌额</span><span>"</span>: i[<span>"</span><span>f4</span><span>"</span><span>],
        </span><span>"</span><span>成交量(手)</span><span>"</span>: i[<span>"</span><span>f5</span><span>"</span><span>],
        </span><span>"</span><span>成交额</span><span>"</span>: i[<span>"</span><span>f6</span><span>"</span><span>],
        </span><span>"</span><span>振幅</span><span>"</span>: str(i[<span>"</span><span>f7</span><span>"</span>]) + <span>"</span><span>%</span><span>"</span><span>,
        </span><span>"</span><span>最高</span><span>"</span>: i[<span>"</span><span>f15</span><span>"</span><span>],
        </span><span>"</span><span>最低</span><span>"</span>: i[<span>"</span><span>f16</span><span>"</span><span>],
        </span><span>"</span><span>今开</span><span>"</span>: i[<span>"</span><span>f17</span><span>"</span><span>],
        </span><span>"</span><span>昨收</span><span>"</span>: i[<span>"</span><span>f18</span><span>"</span><span>],
        </span><span>"</span><span>量比</span><span>"</span>: i[<span>"</span><span>f10</span><span>"</span><span>],
        </span><span>"</span><span>换手率</span><span>"</span>: str(i[<span>"</span><span>f8</span><span>"</span>]) + <span>"</span><span>%</span><span>"</span><span>,
        </span><span>"</span><span>市盈率(动态)</span><span>"</span>: i[<span>"</span><span>f9</span><span>"</span><span>],
        </span><span>"</span><span>市净率</span><span>"</span>: i[<span>"</span><span>f23</span><span>"</span><span>],
    }</span>

 

保存数据通过csv模块保存就可以了。

 

使用多线程爬取速度有多快?

 

给五个线程时的速度:

<span>if</span> <span>__name__</span> == <span>"</span><span>__main__</span><span>"</span><span>:
    start_time </span>=<span> time.time()
    executor </span>= concurrent.futures.ThreadPoolExecutor(max_workers=5<span>)
    </span><span>for</span> page <span>in</span> range(1, 215<span>):
        url </span>= f<span>"</span><span>http://49.push2.eastmoney.com/api/qt/clist/get?pn={page}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1608882114076</span><span>"</span><span>
        executor.submit(main, url)
    executor.shutdown()</span>

 

 

总耗时:3.685572624206543

总计数据:4279条数据

所以平均每秒钟爬取1161条数据。

 

 

当我给10个线程时的速度:

<span>if</span> <span>__name__</span> == <span>"</span><span>__main__</span><span>"</span><span>:
    start_time </span>=<span> time.time()
    executor </span>= concurrent.futures.ThreadPoolExecutor(max_workers=10<span>)
    </span><span>for</span> page <span>in</span> range(1, 215<span>):
        url </span>= f<span>"</span><span>http://49.push2.eastmoney.com/api/qt/clist/get?pn={page}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1608882114076</span><span>"</span><span>
        executor.submit(main, url)
    executor.shutdown()</span>

 

 

总耗时:1.7553794384002686

总计数据:4279条数据

所以平均每秒钟爬取2437条数据。

 

 

当我给20个线程时的速度:

给不了,电脑顶不住。


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:Python爬取股票数据,让你感受一下什么是一秒钟两千条数据

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址