时间:2021-05-22
解析url用的类库:
python2版本:
from urlparse import urlparseimport urllibpython3版本:
from urllib.parse import urlparseimport urllib.request研究了不同的url规则发现:只要在搜索关键字是用=嫁接的,查询的关键在解析后的query里
如果不是用=嫁接,查询的关键在解析后的path里。
解析的规则都是一样的,正则如下:(6中不同情况的组合)
另外host为‘s.weibo.com'的url编码与其他不同要另做处理。
代码如下:有些网站的规则还不是很清楚,需要花大量时间找规则,规则越清晰,关键字就越清楚,如下规则已适合绝大部分网站,酌情参考。
# -*- coding:utf-8 -*- from urlparse import urlparseimport urllibimport re # urlsource_txt = "E:\\python_Anaconda_code\\url.txt"# 规则regular = r'(\w+(%\w\w)+\w+|(%\w\w)+\w+(%\w\w)+|\w+(%\w\w)+|(%\w\w)+\w+|(%\w\w)+|\w+)' # 存放关键字kw_list = list() # key为要研究网站的host,value为关键字的嫁接标识符dict = { "/weibo/%25E4%25BD%25A0%25E5%25A5%25BD123mm%2520%25E5%2597%25AF%2520mm11&Refer=STopic_box结果如下:
如果要研究其他host,可以加到字典dict里。
备注:以上代码和思路仅供参考,如有更好的方法敬请留言!
以上这篇Python解析、提取url关键字的实例详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
Python网页解析HTMLParse的实例详解使用python将网页抓取下来之后,下一步我们就应该解析网页,提取我们所需要的内容了,在python里提供了一个
Javathis关键字详解this关键字用来表示当前对象本身,或当前类的一个实例,通过this可以调用本对象的所有方法和属性。例如:publicclassDem
swiftguard关键字详解及使用Swift提供guard关键字,guard关键字可以简化繁琐的判断逻辑?12345678910111213141516fun
C#检索不区分大小写并高亮显示实例详解今日,碰到一个问题:如何在网页中高亮显示不区分大小写的关键字 例如:文本abcaBcabCaBCabcaBCa,关键字b
网站建设后提炼合适的关键字是seo优化人员首要的任务。Seo优化人员对关键字的选择都非常关注,因为关键字选择正确与否,关系到网站的排名。提取关键字的方法有很多中