• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

Python爬虫:lxml的环境配置

python 搞java代码 3年前 (2022-05-24) 23次浏览 已收录 0个评论

一、什么是lxml?

在我们获取html页面之后,可以使用xpath语法进行数据提取,但是,直接在获取的content里面使用xpath语法进行数据提取吗?显然不是的,获取的内容仅仅只是一个包含所有内容的html字符串,Xpath语法是无法直接作用于这样的一个字符串进行数据提取的,所以,在这里,我们需要使用lxml这样一个库对html这样的字符串进行解析,将它还原为一个HTML页面,换句话说,Python里面的lxml库只做了这样一件事:将html字符串进行解析,供Xpath语法进行数据提取。

lxml是用 C 语言编写的【这个就是为什么使用xpath语法解析起来速度比较快的原因】,是一款高性能的HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。

二、如何安装lxml?

1.方法一:

通过pip install lxml直接进行在线安装。

版本:

2.方法二:

通过离线方式进行安装,直接安装.whl文件。

搞代码网,大量的免费python教程,欢迎在线学习!

本文转自:https://www.gaodaima.com/weixin_42830697/article/details/102671274


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:Python爬虫:lxml的环境配置

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址