Python编写百度贴吧的简单爬虫

时间：2021-05-22

操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数

功能：下载对应页码的所有页面并储存为HTML文件，以当前时间命名

代码：

# -*- coding: utf-8 -*- #----------------------------# 程序：百度贴吧的小爬虫# 日期：2015/03/28# 语言：Python 2.7# 操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数# 功能：下载对应页码的所有页面并储存为HTML文件，以当前时间命名#---------------------------- import urllib2import time def baidu_tieba(url, start, end): for i in range(start, end): sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html' print '正在下载第' + str(i) + '个网页，并将其储存为' + sName + '...' f = open(sName, 'w+') m = urllib2.urlopen(url+str(i)) n = m.read() f.write(n) f.close() print '成功下载' baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))begin_page = int(raw_input('请输入帖子的起始页码>>\n'))end_page = int(raw_input('请输入帖子的终止页码>>\n')) baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了，希望能够对大家学习Python制作爬虫有所帮助。

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

Python编写百度贴吧的简单爬虫

相关文章

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

用好百度贴吧提高网店流量

狼军百度贴吧顶帖机软件使用图文教程

百度贴吧如何私聊

百度贴吧怎样发帖