python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比

时间：2021-05-22

前言

还有一年多就要毕业了，不准备考研的我要着手准备找实习及工作了，所以一直没有更新。

因为Python是自学不久，发现很久不用的话以前学过的很多方法就忘了，今天打算使用简单的BeautifulSoup和一点正则表达式的方法来爬一下top100电影，当然，我们并不仅是使用爬虫爬取数据，这样的话，数据中存在很多的对人有用的信息则被忽略了。所以，爬取数据只是开头，对这些数据根据意愿进行分析，或许能有额外的收获。

注：本人还是Python菜鸟，若有错误欢迎指正

本次我们爬取时光网（http://parison', fontsize=10) #图形标题plt.legend(loc='best')'''plt.legend()——loc参数选择'best' : 0, #自动选择最好位置 'upper right' : 1, 'upper left' : 2, 'lower left' : 3, 'lower right' : 4, 'right' : 5, 'center left' : 6, 'center right' : 7, 'lower center' : 8, 'upper center' : 9, 'center' : 10, '''plt.savefig('C:\\Users\lenovo\Desktop\\bs1.png') #保存图片plt.show() #显示图形

这里需要注意的是读取保存的csv文件并将数据传入列表时，每一个电影数据又是一个列表（先称为有效列表），每个有效列表前后都有一个空列表，所以需要将空列表删除，才能进行下一步

评分数据为string类型且有中文，所以进行遍历将中文去除并转换为int。

最后保存的对比分析图片：

本次使用的爬取方法、爬取内容、分析内容都很容易，但我在完成过程中，发现自己还是会出现各种各样的问题，说明还有很多需要改善进步的地方。

同时欢迎大家指正。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对的支持。

python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比

相关文章

python爬虫开发之使用Python爬虫库requests多线程抓取猫眼电影TOP100实例

python爬虫 正则表达式使用技巧及爬取个人博客的实例讲解

手机网站建设正则表达式

Python使用正则表达式过滤或替换HTML标签的方法详解

python爬虫爬取图片的简单代码

python爬虫正则表达式使用技巧及爬取个人博客的实例讲解