Python 通过正则表达式快速获取电影的下载地址

时间：2021-05-22

在爬取网页信息时，如果在HTML代码中通过获取标签的方式来提取电影的下载地址时，不仅要编写比较多的代码，还需要不断的确认每一层的标签是否正确，这样的操作无疑是烦琐的。如下图所示。那么通过什么方式既可以减少代码量，又可以很简单的提取指定标签的内容呢？本文将实现通过正则表达式快速获取电影的下载地址。如果对正则表达式不熟悉的读者，点击此处学习正则表达式。

在爬取网页信息的任务中，可以使用正则表达式的方式快速的提取某个标签内的指定信息，以爬取电影的下载地址为例。本案例需要注意编码格式的问题，单击鼠标右键，如图所示查看网页编码：

代码如下：

import reimport requestsdef get_movies(url): # 构造请求头 headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/53" "7.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36" } response = requests.get(url, headers=headers) # 发送请求 response.encoding = "gb2312" # 设置编码方式 # 判断请求是否成功根据状态码是否等于200来判断 if response.status_code == 200: # 获取每个电影详情页地址，通过正则表达式提取电影详情页地址 # <a href="/html/gndy/dyzz/20200411/59903.html" rel="external nofollow" class="ulink">2020年动作《绝地战警：疾速追击》BD中英双字幕</a> movies_info = re.findall(r'<a href="(.*?)" rel="external nofollow" class="ulink">', response.text) # 返回符合表达式规则的数据列表 print(len(movies_info)) for url in movies_info: # 循环每个电影的详情页地址 info_url = "https://.二分之一的魔法.BD.1080p.中英双字幕.mkv']
1

笔者在这里声明，笔者写文章只是为了学习交流，以及让更多学习Python基础的读者少走一些弯路，节省时间，并不用做其他用途，如有侵权，联系删除即可。

到此这篇关于Python 通过正则表达式快速获取电影的下载地址的文章就介绍到这了,更多相关Python 正则表达式下载地址内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

Python 通过正则表达式快速获取电影的下载地址

相关文章

Python正则获取、过滤或者替换HTML标签的方法

python 根据正则表达式提取指定的内容实例详解

grep正则表达式实现查找某个特定的IP地址

Python使用正则表达式过滤或替换HTML标签的方法详解

基于Python正则表达式提取搜索结果中的站点地址