文章目录[隐藏]

大家好，我是查理。
知己知彼，方可百战不殆。在学习技术的时候咱们往往面临太多抉择而手足无措，可能是各个方面都有涉猎，对某个畛域没有深入研究，看似什么都会，真要让你做个什么货色的时候就显得捉肘见襟。如果咱们能从招聘职位所需的技能开始学习，便可练就一身硬功夫，为实战利用中打下良好的根底。

咱们的目标次要是通过python抓取拉钩网的招聘详情，并筛选其中的技能关键词，存储到excel中。

一、获取职位需要数据

通过观察能够发现，拉勾网的职位页面详情是由 http://www.lagou.com/jobs/ + ***** (PositionId).html 组成，而PositionId能够通过剖析Json的XHR取得。而红框里的职位形容内容是咱们要抓取的数据。

晓得了数据的源头，接下来就依照惯例步骤包装Headers，提交FormData来获取反馈数据。

获取PositionId列表所在页面：

#获取职位的查问页面，（参数别离为网址，以后页面数，关键词）
def get_page(url, pn, keyword):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
        'Host': 'www.lagou.com',
        'Connection': 'keep-alive',
        'Origin': 'http://www.lagou.com'
    }
    if pn == 1:
        boo = 'true'
    else:
        boo = 'false'
    page_data = urllib.urlencode([
        ('first', boo),
        ('pn', pn),
        ('kd', keyword)
    ])
    req = urllib2.Request(url, headers=headers)

    page = urllib2.urlopen(req, data=page_data.encode('utf-8')).read()
    page = page.decode('utf-8')
    return page

通过Json获取PositionId：

#获取所需的岗位ID，每一个招聘页面详情都有一个所属的ID索引
def read_id(page):
    tag = 'positionId'
    page_json = json.loads(page)
    page_json = page_json['content']['positionResult']['result']
    company_list = []
    for i in range(15):
        company_list.append(page_json[i].get(tag))
    return  company_list

合成指标url：

#获取职位页面，由positionId和BaseUrl组合成指标地址
def get_content(company_id):
    fin_url = r'http://www.lagou.com/jobs/%s.html' % company_id
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
        'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
        'Host': 'www.lagou.com',
        'Connection': 'keep-alive',
        'Origin': 'http://www.lagou.com'
    }
    req = urllib2.Request(fin_url, headers=headers)
    #page = urllib.urlopen(req).read()
    page = urllib2.urlopen(req).read()
    content = page.decode('utf-8')
    return content

二、对数据进行解决

获取数据之后，须要对数据进行荡涤，通过BeautifulSoup抓取的职位内容蕴含Html标签，须要让数据脱去这层“外衣”。

#获取职位需要（通过re来去除html标记），能够将职位详情独自存储
def get_result(content):
    soup = Bs(content, 'lxml')
    job_description = soup.select('dd[class="job_bt"]')
    job_description = str(job_description[0])
    rule = re.compile(r'<[^>]+>')
    result = rule.sub('', job_description)
    return result

当初失去的数据就是职位形容信息，咱们要从职位信息当中筛选咱们所关注的任职要求关键词。

咱们将这些关键词筛选进去，存储到List当中。通过对整个500+职位进行爬取，咱们失去了职位技能关键词的总表。

#过滤关键词：目前筛选的形式只是选取英文关键词
def search_skill(result):
    rule = re.compile(r'[a-zA-z]+')
    skil_list = rule.findall(result)
    return skil_list

对关键词依照500+职位需要呈现的频次进行排序，选取频次排序Top80的关键词，去除有效的关键词。

# 对呈现的关键词计数，并排序，选取Top80的关键词作为数据的样本
def count_skill(skill_list):
    for i in range(len(skill_list)):
        skill_list[i] = skill_list[i].lower()
    count_dict = Counter(skill_list).most_common(80)
    return count_dict

三、对数据进行存储和可视化解决

# 对后果进行存储并生成Area图
def save_excel(count_dict, file_name):
    book = xlsxwriter.Workbook(r'E:\positions\%s.xls' % file_name)
    tmp = book.add_worksheet()
    row_num = len(count_dict)
    for i in range(1, row_num):
        if i == 1:
            tag_pos = 'A%s' % i
            tmp.write_row(tag_pos, ['关键词', '频次'])
        else:
            con_pos = 'A%s' % i
            k_v = list(count_dict[i-2])
            tmp.write_row(con_pos, k_v)
    chart1 = book.add_chart({'type':'area'})
    chart1.add_series({
        'name' : '=Sheet1!$B$1',
        'categories' : '=Sheet1!$A$2:$A$80',
        'values' : '=Sheet1!$B$2:$B$80'
    })
    chart1.set_title({'name':'关键词排名'})
    chart1.set_x_axis({'name': '关键词'})
    chart1.set_y_axis({'name': '频次(/次)'})
    tmp.insert_chart('C2', chart1, {'x_offset':15, 'y_offset':10})
    book.close()

数据可视化展现

如发现错误或看不懂的中央，可在评论区提出，大家一起交换！

如果文章对您有帮忙，点赞+关注，您的反对是我最大的能源

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：关于python:保姆级教程拉钩网职位需求关键词抓取以及生成统计图