时间:2021-05-22
本文实例讲述了Python实现的爬取豆瓣电影信息功能。分享给大家供大家参考,具体如下:
本案例的任务为,爬取豆瓣电影top250的电影信息(包括序号、电影名称、导演和主演、评分以及经典台词),并将信息作为字典形式保存进txt文件。这里只用到requests库,没有用到beautifulsoup库
step1:首先获取每一页的源代码,用requests.get函数获取,为了防止请求错误,使用try...except..
def getpage(url): try: res=requests.get(url) if res.status_code==200: return res.text return None except RequestException: return Nonestep2:做每一页的网址解析,打开原网址https://movie.douban.com/top250?,查看网页源代码,可以看到每一个电影的源代码都是从<li>开始,在</li>处结束,写好正则表达式以后爬到的列表的每一条item都有五个元素,因此将其写成字典的形式,这里用到yield函数(关于yield函数的用法,廖老师的有一篇文章比较好懂https:///top250?start="+str(start) html=getpage(url) for item in parsepage(html): print(item) write_tofile(item)if __name__ == '__main__': for i in range(10): main(i*10)
如果想让你的程序跑的更快,可以用多线程爬虫(当然这里其实没有必要):
#在最开始加载Pool包from multiprocessing import Pool#最后的执行段改为:if __name__ == '__main__': for i in range(10): main(i*10) pool=Pool() #在循环外写 pool.map(main,[i*10 for i in range (10)])更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项
本文实例讲述了Python利用Scrapy框架爬取豆瓣电影。分享给大家供大家参考,具体如下:1、概念Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应
目的搭建爬虫平台,爬取某豆瓣电影的评论信息。准备webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。web
基于requests模块发起ajax的get请求需求:爬取豆瓣电影分类排行榜https://movie.douban.com/中的电影详情数据用抓包工具捉取使用
本文实例为大家分享了selenium+PhantomJS爬取豆瓣读书的具体代码,供大家参考,具体内容如下获取关于Python的全部书籍信息;通过代码测试requ