Python爬虫：lxml的环境配置

一、什么是lxml?

在我们获取html页面之后，可以使用xpath语法进行数据提取，但是，直接在获取的content里面使用xpath语法进行数据提取吗？显然不是的，获取的内容仅仅只是一个包含所有内容的html字符串，Xpath语法是无法直接作用于这样的一个字符串进行数据提取的，所以，在这里，我们需要使用lxml这样一个库对html这样的字符串进行解析，将它还原为一个HTML页面，换句话说，Python里面的lxml库只做了这样一件事：将html字符串进行解析，供Xpath语法进行数据提取。

lxml是用 C 语言编写的【这个就是为什么使用xpath语法解析起来速度比较快的原因】，是一款高性能的HTML/XML 解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。

二、如何安装lxml?

1.方法一：

通过pip install lxml直接进行在线安装。

版本：

2.方法二：

通过离线方式进行安装，直接安装.whl文件。

搞代码网，大量的免费python教程，欢迎在线学习！

本文转自：https://www.gaodaima.com/weixin_42830697/article/details/102671274

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：Python爬虫：lxml的环境配置

Hi，您需要填写昵称和邮箱！