标签：python

Python爬虫之urllib.request库

爬虫——urllib.request库的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib.request。（在python2.x中为urllib2）urlopen我们先阅读以下代码：#!/usr/bin/python3# -*- ……继续阅读 »

搞java代码 3年前 (2022-05-24) 40浏览 0评论0个赞

python

python中的urllib2怎么用

urlopen函数urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, context]]]]])注：url表示目标网页地址，可以是字符串，也可以是请求对象Requestreq= urllib2.Request(url, data,headers) response = ur……继续阅读 »

搞java代码 3年前 (2022-05-24) 28浏览 0评论0个赞

python

一文带你读懂Python爬虫

一、什么是爬虫?按照一定的规则编写程序，让其模拟人使用浏览器上网，自动抓取互联网中数据的过程，称之为爬虫。二、爬虫分类：通用网络爬虫：通用网络爬虫又称全网爬虫（Scalable Web Crawler），爬行整个 Web站点，主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。这类网络爬虫的爬行范围和数量大，对于爬行速度和存储空间要求较高。通……继续阅读 »

搞java代码 3年前 (2022-05-24) 45浏览 0评论0个赞

python

Python爬虫：lxml的环境配置

一、什么是lxml?在我们获取html页面之后，可以使用xpath语法进行数据提取，但是，直接在获取的content里面使用xpath语法进行数据提取吗？显然不是的，获取的内容仅仅只是一个包含所有内容的html字符串，Xpath语法是无法直接作用于这样的一个字符串进行数据提取的，所以，在这里，我们需要使用lxml这样一个库对html这样的字符串进行解析，将……继续阅读 »

搞java代码 3年前 (2022-05-24) 22浏览 0评论0个赞

python

Python3爬虫入门：pyspider的基本使用

pyspider 的基本使用本节用一个实例来讲解 pyspider 的基本用法。1. 本节目标我们要爬取的目标是去哪儿网的旅游攻略，链接为 http://travel.qunar.com/travelbook/list.htm，我们要将所有攻略的作者、标题、出发日期、人均费用、攻略正文等保存下来，存储到 MongoDB 中。2. 准备工作请确保已经……继续阅读 »

搞java代码 3年前 (2022-05-24) 20浏览 0评论0个赞

python

python学爬虫要安装什么

Python爬虫我们所需的库这里我们是以python3.4.4版本为例Python的爬虫我们需要安装一下几个库：1、BeautifulSoup42、lxml3、requests4、pymongowww#gaodaima.com来源gaodai$ma#com搞$代*码*网搞代码接下来我来重点说一下lxml库的安装方法，经过几十次失败之后，我终于……继续阅读 »

搞java代码 3年前 (2022-05-24) 29浏览 0评论0个赞

python

Python爬取13个旅游城市，告诉你大家最爱去哪玩？

通过分析去哪儿网部分城市门票售卖情况，简单的分析一下哪些景点比较受欢迎。用到的Python模块BeautifulSoup、requests、pymongo、pylab方法通过请求https://piao.qunar.com/ticket/list.htm?keyword=北京，获取北京地区热门景区信息，再通过BeautifulSoup去……继续阅读 »

搞java代码 3年前 (2022-05-24) 55浏览 0评论0个赞

python

python爬虫可以做什么

世界上80%的爬虫是基于Python开发的，学好爬虫技能，可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。什么是爬虫？网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。推荐学习《python教程……继续阅读 »

搞java代码 3年前 (2022-05-24) 50浏览 0评论0个赞

python

小白福利，python爬虫系列之xpath：html解析神器

一、说到信息筛选我们立马就会想到正则表达式，不过今天我们不讲正则表达式。因为对于爬虫来讲，正则表达式太复杂对新手十分不友好，而且正则表达式的容错率差，网页有稍微的改动就得重新写匹配表达式，另外正则表达式可读性几乎没有。当然，这并不是说正则不好，只是正则不适合爬虫和新手。其实正则是十分强大的，在后面的数据清洗里我们会用到正则。既然正则不能用，那该用什么呢？……继续阅读 »

搞java代码 3年前 (2022-05-24) 44浏览 0评论0个赞

python

Python爬虫如何搜索文档树

搜索文档树1.find_all(name, attrs, recursive, text, **kwargs)1)name参数name参数可以查找所有名字为name的Tag，字符串对象会被自动忽略掉。a.传字符串最简单的过滤器就是字符串，在搜索方法中传入一个字符串参数，Beautiful Soup会查找与字符串完整匹配所有的内容，返回一个列表。#……继续阅读 »

搞java代码 3年前 (2022-05-24) 25浏览 0评论0个赞

上一页
1
···
20
21
22
23
24
25
26
27
28
...