时间:2021-05-22
本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:
from bs4 import BeautifulSoupimport time,re,urllib2t=time.time()websiteurls={}def scanpage(url): websiteurl=url t=time.time() n=0 html=urllib2.urlopen(websiteurl).read() soup=BeautifulSoup(html) pageurls=[] Upageurls={} pageurls=soup.find_all("a",href=True) for links in pageurls: if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls: Upageurls[links.get("href")]=0 for links in Upageurls.keys(): try: urllib2.urlopen(links).getcode() except: print "connect failed" else: t2=time.time() Upageurls[links]=urllib2.urlopen(links).getcode() print n, print links, print Upageurls[links] t1=time.time() print t1-t2 n+=1 print ("total is "+repr(n)+" links") print time.time()-tscanpage("http://news.163.com/")希望本文所述对大家的Python程序设计有所帮助。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用BeautifulSoup对爬取的页面进行解析,提取出所有的URL
本文实例讲述了python使用正则表达式提取网页URL的方法。分享给大家供大家参考。具体实现方法如下:importreimporturlliburl="http
思路: 1、将需要查询城市列表,通过城市接口转换成相应的code码 2、遍历城市、职位生成url 3、通过url获取列表页面信息,遍历列表页面信息 4、
本文实例讲述了Python实现提取谷歌音乐搜索结果的方法。分享给大家供大家参考。具体如下:Python的简单脚本,用于提取谷歌音乐搜索页面中的歌曲信息,包括歌曲
Python的urlparse有对url的解析,从而获得url中的参数列表importurlparseurldata="http://en.wikipedia.