• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

Python中装饰器的一个妙用

python 搞代码 4年前 (2022-01-09) 13次浏览 已收录 0个评论

好吧,我知道是大半夜……,但我还是觉得赶紧花上半个小时,把这最新的想法分享出来是值得的~直接进入正题~

我们来模拟一个场景,需要你去抓去一个页面,然后这个页面有好多url也要分别去抓取,而进入这些子url后,还有数据要抓取。简单点,我们就按照三层来看,那我们的代码就是如下:

<br />def func_top(url):<br />    data_dict= {}<br /> <br />    #在页面上获取到子url<br />    sub_urls = xxxx<br /> <br />    data_list = []<br />    for it in sub_urls:<br />        data_list.append(func_sub(it))<br /> <br />    data_dict[\'data\'] = data_list<br /> <br />    return data_dict<br /> <br />def func_sub(url):<br />    data_dict= {}<br /> <br />    #在页面上获取到子url<br />    bottom_urls = xxxx<br /> <br />    data_list = []<br />    for it in bottom_urls:<br />        data_list.append(func_bottom(it))<br /> <br />    data_dict[\'data\'] = data_list<br /> <br />    return data_dict<br /> <br />def func_bottom(url):<br />    #获取数据<br />    data = xxxx<br />    return data<br />

func_top是上层页面的处理函数,func_sub是子页面的处理函数,func_bottom是最深层页面的处理函数,func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。

如果正常情况下,这样确实已经满足需求了,但是偏偏这个你要抓取的网站可能极不稳定,经常链接不上,导致数据拿不到。

于是这个时候你有两个选择:

1.遇到错误就停止,之后重新从断掉的位置开始重新跑
2.遇到错误继续,但是要在之后重新跑一遍,这个时候已经有的数据不希望再去网站拉一次,而只去拉没有取到的数据

对第一种方案基本无法实现,因为如果别人网站的url调整顺序,那么你记录的位置就无效了。那么只有第二种方案,说白了,就是要把已经拿到的数据cache下来,等需要的时候,直接从cache里面取。

OK,目标已经有了,怎么实现呢?

如果是在C++中的,这是个很麻烦的事情,而且写出来的代码必定丑陋无比,然而庆幸的是,我们用的是python,而python对函数有装饰器。

所以实现方案也就有了:

定义一个装饰器,如果之前取到数据,就直接取cache的数据;如果之前没有取到,那么就从网站拉取,并且存入cache中.

代码如下:

<br />def get_dump_data(dir_name, url):<br />    m = hashlib.md5(url)<br />    filename = m.hexdigest()<br />    full_file_name = \'dumps/%s/%s\' % (dir_name,filename)<br /> <br />    if os.path.isfile(full_file_name):<br />        return eval(file(full_file_name,\'r\').read())<br />    else:<br />        return None<br /> <br /> <br />def set_dump_data(dir_name, url, data):<br />    if not os.path.isdir(\'dumps/\'+dir_name):<br />        os.makedirs(\'dumps/\'+dir_name)<br /> <br />    m = hashlib.md5(url)<br />    filename = m.hexdigest()<br />    full_file_name = \'dumps/%s/%s\' % (dir_name,filename)<br /> <br />    f = file(full_file_name, \'w+\')<br />    f.write(repr(data))<br />    f.close()<br /> <br /> <br />def deco_dump_data(func):<br />    def func_wrapper(url):<br />        data = get_dump_data(func.__name__,url)<br />        if data is not None:<br />            return data<br /> <br />        data = func(url)<br />        if data is not None:<br />            set_dump_data(func.__name__,url,data)<br /><strong style="color:transparent">本文来源gao@daima#com搞(%代@#码网@</strong>        return data<br /> <br />    return func_wrapper<br />

然后,我们只需要在每个func_top,func_sub,func_bottom都加上deco_dump_data这个装饰器即可~~

搞定!这样做最大的好处在于,因为top,sub,bottom,每一层都会dump数据,所以比如某个sub层数据dump之后,是根本不会走到他所对应的bottom层的,减少了大量的开销!

OK,就这样~ 人生苦短,我用python!


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:Python中装饰器的一个妙用

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址