时间:2021-05-22
爬取”顶点小说网“《纯阳剑尊》
代码
import requestsfrom bs4 import BeautifulSoup# 反爬headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \ like Gecko) Chrome/70.0.3538.102 Safari/537.36'}# 获得请求def open_url(url): response = requests.get(url, headers=headers) response.encoding = response.apparent_encoding html = response.text return html# 提取标题def get_title(url): soup = BeautifulSoup(url, 'lxml') title_tag = soup.find('dd') title = '\n' + title_tag.h1.get_text() + '\n' return title# 提取文本def get_texts(url): soup2 = BeautifulSoup(url, 'lxml') text_tags = soup2.find_all('dd', id="contents") return text_tags# 保存标题def save_title(filename, title): with open(filename, 'a+', encoding='utf-8') as file: file.write(title)# 保存文本def save_text(filename, text): with open(filename, 'a+', encoding='utf-8') as file: file.write(text)# 主程序函数def main(): num = input('《纯阳剑尊》你想要下载第几章?(1-802)') num = int(num) number = 8184027 + num url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html' filename = '纯阳剑尊.txt' r = open_url(url) title = get_title(r) tags = get_texts(r) save_title(filename, title) for text_tag in tags: text = text_tag.get_text() + '\n' save_text(filename, text) print('第{}章已经下载完成!'.format(num))if __name__ == '__main__': main()爬取结果:
以上就是python爬取”顶点小说网“《纯阳剑尊》的示例代码的详细内容,更多关于python 爬取顶点小说网的资料请关注其它相关文章!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
本文实例讲述了Python实现的爬取小说爬虫功能。分享给大家供大家参考,具体如下:想把顶点小说网上的一篇持续更新的小说下下来,就写了一个简单的爬虫,可以爬取爬取
python爬虫-梨视频短视频爬取(线程池)示例代码importrequestsfromlxmlimportetreeimportrandomfrommulti
开发工具:python3.4操作系统:win8主要功能:去指定小说网页爬小说目录,按章节保存到本地,并将爬过的网页保存到本地配置文件。被爬网站:http://p
使用pycharm批量爬取小说爬取小说的思路:1.获取小说地址本文以搜书网一小说为例《嘘,梁上有王妃!》目录网址:https:///XuLiangShangYo
本文实例讲述了PHP实现的抓取小说网站内容功能。分享给大家供大家参考,具体如下:爬取免费内容,弄到手机,听书,妥妥的。ini_set('user_agent',