• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

Python爬虫高级入门,Scrapy框架入门级案例实战!

python 搞java代码 3年前 (2022-05-21) 14次浏览 已收录 0个评论

提前准备插件安装:

pip <a href="https://www.gaodaima.com/tag/install" title="查看更多关于install的文章" target="_blank">install</a> scrapy

www#gaodaima.com来源gaodai#ma#com搞*!代#%^码$网搞代码

这里是运行成功的截图

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!??¤
QQ群:623406465

python install Twisted

这里是运行成功的截图

 

阅读目录

  • 系列文章目录
  • 前言
  • 一、编写Tenxun.py爬虫文件
  • 二、在item.py列表里进行设置数据表
  • 三、在pipelines.py列表里进行设置数据表
  • 四、在settings.py文件里配置爬虫
  • 五、运行爬虫
  • 总结

 


前言

随着我们对爬虫的了解,以前我们用requests可以请求进行解析网页可以提供我们想要的数据 ,现在我们网页的数据量很多的时候,我们就要应用Scrapy异步爬虫进行爬取网页,下面由我向大家介绿一下Scrapy实战爬取腾讯招聘的职位


一、编写Tenxun.py爬虫文件

图二

此文件为核心文件,我们在设计爬虫网页时,要在这里进行设计。,这里我将把源码公开,进行讲解。 首先创建一个scrapy项目,下面是实例代码

scrapy startproject demoTenXun

上面的是运行成功的代码截图二,下面我们要在dmoTenXun下面spider文件夹里新建一个Tenxun.py文件进行编写。 上面的是图三是我们通过F12进行的网页上的数据,我们可以清楚看到此为爬虫中的一种“ajax渲染”下面我们要在dmoTenXun下面spider文件夹里新建一个Tenxun.py文件进行编写。

import scrapy
import json
from demoTenXun.items import DemotenxunItem
class TenXunSpider(scrapy.Spider):

    name = "Tenxun"    #爬虫名称运行时只要这个爬虫名就可以了
    allowed_domains = ["careers.tencent.com"]
    start_urls=["https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1602982179339&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=python&pageIndex=1&pageSize=10&language=zh-cn&area=cn"]
    offer=1
    def parse(self, response):
        # 通过josn读取数据
        datas=json.loads(response.text)
        for data in datas["Data"]["Posts"]:
            # 创建一个item对象
            item =DemotenxunItem()
            item["RecruitPostName"]=data["RecruitPostName"]
            item["Responsibility"]=data["Responsibility"]
            item["LastUpdateTime"]=data["LastUpdateTime"]
            item["LocationName"]=data["LocationName"]
            yield item
        self.offer +=1
        # 这里加一个判断
        if self.offer <=109:
            #下一次编写的url
            next_url="https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1602982179339&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=python&pageIndex={}&pageSize=10&language=zh-cn&area=cn".format(self.offer)

            yield scrapy.Request(next_url,self.parse)

二、在item.py列表里进行设置数据表

代码如下(示例):

import scrapy


class DemotenxunItem(scrapy.Item):
    # define the fields for your item here like:
    RecruitPostName = scrapy.Field()    #岗位名称
    Responsibility =scrapy.Field()      #岗位职责
    LastUpdateTime=scrapy.Field()       #发布时间
    LocationName=scrapy.Field()         #发布地点
    pass

三、在pipelines.py列表里进行设置数据表

代码如下(示例):

import json
import codecs
class DemotenxunPipeline:
    def __init__(self):
        self.file=codecs.open("tensun.csv","a",encoding="GBK")
    def process_item(self, item, spider):
        line = json.dumps(dict(item),ensure_ascii=False) +"
"
        self.file.write(line)
        return item
        # return item
    def spider_close(self):
        self.file.close()

四、在settings.py文件里配置爬虫

下面有些地方修改

#把这个注释去掉
ITEM_PIPELINES = {
   "demoTenXun.pipelines.DemotenxunPipeline": 300,
}
3在这里加入你的表头
DEFAULT_REQUEST_HEADERS = {
  # "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
  # "Accept-Language": "en",
    "user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10; rv:33.0) Gecko/20100101 Firefox/33.0"
}
#改为False
ROBOTSTXT_OBEY = False

五、运行爬虫

下面为格式

scrapy crawl +你的爬虫名字(在TenXun.py)中找到你的name=""

下面为代码

scrapy crawl Tenxun

总结

提示:以上就是今天要讲的内容,本文仅仅简单介绍了Scrapy的使用,但Scrapy提供了大量能使我们快速便捷地爬取数据的方法。

人生若知,我用python

 


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:Python爬虫高级入门,Scrapy框架入门级案例实战!

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址