Python提取网页中超链接的方法

很多人在一开始学习Python，会打算用作爬虫开发。既然要做爬虫，首先就要抓取网页，并且从网页中提取出超链接地址。这篇文章给大家分享一个简单的方法，有需要的可以参考借鉴。

下面是最简单的实现方法，先将目标网页抓回来，然后通过正则匹配a标签中的href属性来获得超链接

代码如下：

 import urllib2 import re url = 'http://www.sun<p style="color:transparent">来源gao!%daima.com搞$代*!码网</p>bloger.com/' req = urllib2.Request(url) con = urllib2.urlopen(req) doc = con.read() con.close() links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc) for a in links: print a

总结

以上就是这篇文章的全部内容，希望本文的内容对大家的学习或者工作能有所帮助，如果有疑问大家可以留言交流。

以上就是Python提取网页中超链接的方法的详细内容，更多请关注gaodaima搞代码网其它相关文章！

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：Python提取网页中超链接的方法

Hi，您需要填写昵称和邮箱！