• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

如何使用python写爬虫程序

python 搞java代码 3年前 (2022-05-21) 30次浏览 已收录 0个评论

python编写爬虫的整体思路简单清晰,下面来说一下具体的步骤:

更多Python爬虫入门教程,可以参考这份指南:《Python2爬虫入门教程指南》(系列教程)

先来看代码,在解释,一个简单的网络爬虫示例

import requests
from bs4 import BeautifulSoup

#58同城的二手市场主<a href="https://www.gaodaima.com/tag/%e9%a1%b5%e9%9d%a2" title="查看更多关于页面的文章" target="_blank">页面</a>
start_url = 'http://bj.58.com/sale.shtml'
url_host = 'http://bj.58.com'
#定义一个爬虫函数来获取二手市场页面中的全部大类页面的连接
def get_channel_urls(url):
    #使用Requests库来进行一次请求
    web_data = requests.get(url)
    #使用BeautifulSoup对获取到的页面进行解析
    soup = BeautifulSoup(web_data.text, 'lxml')
    #根据页面内的定位信息获取到全部大类所对应的连接
    urls = soup.select('ul.ym-submnu > li > b > a')
    #作这两行处理是因为有的标签有链接,但是却是空内容
    for link in urls:
        if link.text.isspace():
            continue
        else:
            page_url = url_host + link.get('href')
            print(page_url)

www#gaodaima.com来源gaodaimacom搞#代%码网搞代码

整体思路流程

通过URL获取说要爬取的页面的响应信息(Requests库的使用)

通过python中的解析库来对response进行结构化解析(BeautifulSoup库的使用)

通过对解析库的使用和对所需要的信息的定位从response中获取需要的数据(selecter和xpath的使用)

将数据组织成一定的格式进行保存(MongoDB的使用)

通过对数据库中的数据进行筛选和组织,进行数据可视化的初步展示(HighCharts库的使用)

简单代码演示

 准备工作

下载并安装所需要的python库,包括:

requests库:用于向指定url发起请求

BeautifulSoup库:用于解析返回的网页信息

lxml库:用于解析网页返回结果

pymongo库:用于实现python对MongoDB的操作

 对所需要的网页进行请求并解析返回的数据

对于想要做一个简单的爬虫而言,这一步其实很简单,主要是通过requests库来进行请求,然后对返回的数据进行一个解析,解析之后通过对于元素的定位和选择来获取所需要的数据元素,进而获取到数据的一个过程。(更多学习内容,请点击搞代码网

以上就是一个简单的网页爬虫的制作过程,我们可以通过定义不同的爬虫来实现爬取不同页面的信息,并通过程序的控制来实现一个自动化爬虫。

来源:搞代码网:原文地址:https://www.gaodaima.com


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:如何使用python写爬虫程序

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址