时间:2021-05-22
前言
最近网站从HTTPS转为HTTP,更换了网址,旧网址做了301重定向,折腾有点大,于是在百度站长平台提交网址,不管是主动推送还是手动提交,前提都是要整理网站的链接,手动添加太麻烦,效率低,于是就想写个脚本直接抓取全站链接并导出,本文就和大家一起分享如何使用python3实现抓取链接导出。
首先网站要有网站地图sitemap.xml文件地址,其次我这里用的是python3版本,如果你的环境是python2,需要对代码进行调整,因为python2和python3很多地方差别还是挺大的。
下面是python 3代码,将里面的链接地址换成你自己的网址即可:
#coding=utf-8import urllibimport urllib.request import reurl='http://pile(r'(http://www.ranzhi.org.*?\.html)')big=re.findall(r,html)for i in big: print(i) op_xml_txt=open('xml.txt','a') op_xml_txt.write('%s\n'%i)我们能来看一下运行结果:
导出TXT格式文件后,再在百度站长平台手动提交就方便的多了。当然我们也可以使用更快的主动推送方式,因为我的网站是用PHP+mysql开发的,所以我们这里使用PHP脚本将上面抓取的链接再处理下,然后主动推送给百度,一遍加快爬虫抓取时间。
上面1是你的站点的主动推送API,这个可以在百度站长平台获取;2是要主动推送的网站地址,这里就可以用到我们上面抓取的全站链接了。将链接地址整理放到该数组中,运行一下个这个PHP脚本,就可以了。一键提交,及高效便捷,又能缩短爬虫爬去时间,有助于网站页面收录。
我们在平时的SEO或服务器运维工作中,时常会将重复工作自动化,复杂工作间变化,有助于提升效率,如果大家在操作过充中有何问题可以一起分享交流讨论。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对的支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
百度官方所定义的死链接格式一共有两种方式:一:xml格式死链接文件我们知道xml格式常见于网站的地图,特别是google的地图(如sitemap.xml)。在一
网站地图sitemap网站内链首先要提的那就是网站地图了,网站地图分为2种常见形式,sitemap.html和sitemap.xml格式。所有搜索引擎基本都会先
因为对帝国CMS的sitemap插件不太满意,所以自己写了个sitemap生成工具,在sitemap中放了首页链接、栏目页链接和内容页链接,然后生成XML文件并
1、百度站长平台链接提交:网站有没有让搜索引擎知道?如果没有~那好,请到百度站长平台里面去提交你的网站链接,接着请继续提交网站的地图(sitemap.xml),
本文向你介绍向百度和GOOGLE提交SITEMAP网站地图的方法。感兴趣的朋友可以过来看一下!方法/步骤1、首先,制作SITEMAP.XML网站地图文件。需要打