Python实现的爬取豆瓣电影信息功能案例

时间：2021-05-22

本文实例讲述了Python实现的爬取豆瓣电影信息功能。分享给大家供大家参考，具体如下：

本案例的任务为，爬取豆瓣电影top250的电影信息（包括序号、电影名称、导演和主演、评分以及经典台词），并将信息作为字典形式保存进txt文件。这里只用到requests库，没有用到beautifulsoup库

step1：首先获取每一页的源代码，用requests.get函数获取，为了防止请求错误，使用try...except..

def getpage(url): try: res=requests.get(url) if res.status_code==200: return res.text return None except RequestException: return None

step2：做每一页的网址解析，打开原网址https://movie.douban.com/top250?，查看网页源代码，可以看到每一个电影的源代码都是从<li>开始，在</li>处结束，写好正则表达式以后爬到的列表的每一条item都有五个元素，因此将其写成字典的形式，这里用到yield函数（关于yield函数的用法，廖老师的有一篇文章比较好懂https:///top250?start="+str(start) html=getpage(url) for item in parsepage(html): print(item) write_tofile(item)if __name__ == '__main__': for i in range(10): main(i*10)

如果想让你的程序跑的更快，可以用多线程爬虫（当然这里其实没有必要）：

#在最开始加载Pool包from multiprocessing import Pool#最后的执行段改为：if __name__ == '__main__': for i in range(10): main(i*10) pool=Pool() #在循环外写 pool.map(main,[i*10 for i in range (10)])

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python实现的爬取豆瓣电影信息功能案例

相关文章

Python爬虫——爬取豆瓣电影Top250代码实例

Python利用Scrapy框架爬取豆瓣电影示例

Java基于WebMagic爬取某豆瓣电影评论的实现

python爬虫 基于requests模块发起ajax的get请求实现解析

selenium+PhantomJS爬取豆瓣读书

python爬虫基于requests模块发起ajax的get请求实现解析