• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

Python lxml模块的基本使用方法分析

python 搞代码 4年前 (2022-01-08) 54次浏览 已收录 0个评论

这篇文章主要介绍了Python lxml模块的基本使用方法,结合实例形式分析了Python安装与使用lxml模块常见操作技巧与相关注意事项,需要的朋友可以参考下

本文实例讲述了Python lxml模块的基本使用方法。分享给大家供大家参考,具体如下:

1 lxml的安装

安装方式:pip install lxml

2 lxml的使用

2.1 lxml模块的入门使用

导入lxml 的 etree 库 (导入没有提示不代表不能用)

 from lxml import etree

利用etree.HTML,将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表,能够接受bytes类型的数据和str类型的数据

 html = etree.HTML(text) ret_list = html.xpath("xpath字符串") 

把转化后的element对象转化为字符串,返回bytes类型结果 etree.tostring(element)

假设我们现有如下的html字符换,尝试对他进行操作

 <div> <ul> <li class="item-1">first item</li><li class="item-1">second item</li><li class="item-inactive">third item</li><li class="item-1">fourth item</li><li class="item-0">fifth item # 注意,此处缺少一个 </li> 闭合标签 </ul></div>
 from lxml import etree text = ''' <div> <ul> <li class="item-1">first item</li><li class="item-1">second item</li><li class="item-inactive">third item</li><li class="item-1">fourth item</li><li class="item-0">fifth item</ul></div> ''' html = etree.HTML(text) print(type(html)) handeled_html_str = etree.tostring(html).decode() print(handeled_html_str) 

输出为

           

  • first item
  •        

  • second item
  •        

  • third item
  •        

  • fourth item
  •        

  • fifth item
           

可以发现,lxml确实能够把确实的标签补充完成,但是请注意lxml是人写的,很多时候由于网页不够规范,或者是lxml的bug,即使参考url地址对应的响应去提取数据,任然获取不到,这个时候我们需要使用etree.tostring的方法,观察etree到底把html转化成了什么样子,即根据转化后的html字符串去进行数据的提取。

2.2 lxml的深入练习

接下来我们继续操作,假设每个class为item-1的li标签是1条新闻数据,如何把这条新闻数据组成一个字典

 from lxml import etree text = ''' <div> <ul> <li class="item-1">first item</li><li class="item-1">second item</li><li class="item-inactive">third item</li><li class="item-1">fourth item</li><li class="item-0">fifth item</ul></div> ''' html = etree.HTML(text) #获取href的列表和title的列表 href_list = html.xpath("//li[@class='item-1']/a/@href") title_list = html.xpath("//li[@class='item-1']/a/text()") #组装成字典 for href in href_list: item = {} item["href"] = href item["title"] = title_list[href_list.index(href)] print(item) 

输出为

{‘href’: ‘link1.html’, ‘title’: ‘first item’}
{‘href’: ‘link2.html’, ‘title’: ‘second item’}
{‘href’: ‘link4.html’, ‘title’: ‘fourth item’}

假设在某种情况下,某个新闻的href没有,那么会怎样呢?

 from lxml import etree text = ''' <div> <ul> <li class="item-1">first item</li><li class="item-1">second item</li><li class="item-inactive">third item</li><li class="item-1">fourth item</li><li class="item-0">fifth item</ul></div> ''' 

结果是

{‘href’: ‘link2.html’, ‘title’: ‘first item’}
{‘href’: ‘link4.html’, ‘title’: ‘second item’}

数据的对应全部错了,这不是我们想要的,接下来通过2.3小节的学习来解决这个问题

2.3 lxml模块的进阶使用

前面我们取到属性,或者是文本的时候,返回字符串 但是如果我们取到的是一个节点,返回什么呢?

返回的是element对象,可以继续使用xpath方法,对此我们可以在后面的数据提取过程中:先根据某个标签进行分组,分组之后再进行数据的提取

示例如下:

 from lxml import etree text = ''' <div> <ul> <li class="item-1">first item</li><li class="item-1">second item</li><li class="item-inactive">third item</li><li class="item-1">fourth item</li><li class="item-0">fifth item</ul></div> ''' html = etree.HTML(text) li_list = html.xpath("//li[@class='item-1']") print(li_list) 

结果为:

[, , ]

可以发现结果是一个element对象,这个对象能够继续使用xpath方法

先根据li标签进行分组,之后再进行数据的提取

 from lxml import etree text = ''' <div> <ul> <li class="item-1">first item</li><li class="item-1">second item</li><li class="item-inactive">third item</li><li class="item-1">fourth item</li><li class="item-0">fifth item</ul></div> ''' #根据li标签进行分组 html = etree.HTML(text) li_list = html.xpath("//li[@class='item-1']") #在每一组中继续进行数据的提取 for li in li_list: item = {} item["href"] = li.xpath("./a/@href")[0] if len(li.xpath("./a/@href"))>0 else None item["title"] = li.xpath("./a/text()")[0] if len(li.xpath("./a/text()"))>0 else None print(item) 

结果是:

{‘href’: None, ‘title’: ‘first item’}
{‘href’: ‘link2.html’, ‘title’: ‘second item’}
{‘href’: ‘link4.html’, ‘title’: ‘fourth item’}

前面的代码中,进行数据提取需要判断,可能某些一面不存在数据的情况,对应的可以使用三元运算符来解决

PS:这里再为大家提供几款关于xml操作的来源gaodai$ma#com搞$代*码网在线工具供大家参考使用:

在线XML/JSON互相转换工具:
http://tools.gaodaima.com/code/xmljson

在线格式化XML/在线压缩XML
http://tools.gaodaima.com/code/xmlformat

XML在线压缩/格式化工具:
http://tools.gaodaima.com/code/xml_format_compress

XML代码在线格式化美化工具:
http://tools.gaodaima.com/code/xmlcodeformat

更多关于Python相关内容感兴趣的读者可查看本站专题:《Python操作xml数据技巧总结》、《Python数据结构与算法教程》、《Python Socket编程技巧总结》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

以上就是Python lxml模块的基本使用方法分析的详细内容,更多请关注gaodaima搞代码网其它相关文章!


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:Python lxml模块的基本使用方法分析

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址