javascript – Python逐行读取txt中的url文件并进行爬虫

文章目录[隐藏]

回复内容：

毕设项目需要爬取coursera的课程数据，已经把所有课程的url链接爬下来了，存在了txt中，一行是一个课程的url，现在想要获取每门课程的详细信息，如instructor，syllabus 和detail information这几项，但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下，来段伪码就更好啦！thx本￥文来源gaodai$ma#com搞$代*码*网(搞代gaodaima码

回复内容：

你好！不知道这是不是你想要的答案：

<code>f = open("coursera.txt","r")urlList = f.readlines()for url in urlList:    r = requests.get(url)    ''''''</code>

Good Luck ! ^_<

如果是爬取coursera的课程数据，建议你用scrapy爬取，这样不需要提前抓取所有课程的url，只要写好匹配url就行。

scrapy教程 http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html
项目参考 https://github.com/Junnplus/OnlineJudgeCrawlerCore

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：javascript – Python逐行读取txt中的url文件并进行爬虫

回复内容：

Hi，您需要填写昵称和邮箱！