时间:2021-05-22
复制代码 代码如下:
#coding:utf-8
import urllib.request
import xml.dom.minidom
import sqlite3
import threading
import time
class logger(object):
def log(self,*msg):
for i in msg:
print(i)
Log = logger()
Log.log('测试下')
class downloader(object):
def __init__(self,url):
self.url = url
def download(self):
Log.log('开始下载',self.url)
try:
content = urllib.request.urlopen(self.url).read()
#req = urllib.request.Request(url)
#response = urllib.request.urlopen(req)
#content = response.read()
Log.log('下载完毕')
return(content)
except:
Log.log('下载出错')
return(None)
class parser(object):
def __init__(self,content):
#获得根节点
self.html = xml.dom.minidom.parseString(content)
def parse(self):
Log.log('开始提取数据')
contents = {'content':'','url':[]}
#获得div节点
divs = self.html.getElementsByTagName('div')
#获得content节点
for div in divs:
if div.hasAttribute('class') and \
div.getAttribute('class') == 'content':
#获得糗事百科的内容
textNode = div.childNodes[0]
qContent = textNode.data
#数据填充
contents['content'] = qContent
#获得上一糗事、下一糗事节点
spans = self.html.getElementsByTagName('span')
for span in spans:
pspan = span.parentNode
if pspan.tagName == 'a':
#pspan为对应的链接,此时需要将对应的地址加入数据库
url = pspan.getAttribute('href')
qid = url[10:][:-4]
#数据填充
contents['url'].append(qid)
Log.log('提取数据完毕')
return(contents)
def downloadPage(qid,db):
url = 'http://mit()
#关闭连接
c.close()
cn.close()
Log.log('更新状态成功')
def getList(self,unDonloaded=1):
Log.log('获得列表')
l = []
#获得连接
cn = sqlite3.connect(self.dbpath)
c = cn.cursor()
#获得数据
c.execute(Q_LIST,(unDonloaded,))
rows = c.fetchall()
for i in rows:
l.append(i[0])
#关闭连接
c.close()
cn.close()
Log.log('获得列表成功')
return(l)
class singleDownloader(object):
def __init__(self):
self.downloadList = []
def setdb(self,db):
self.db = db
def setDownloadList(self,downloadList):
self.downloadList = list(set(self.downloadList+downloadList))
def beginDownload(self):
for i in self.downloadList:
downloadPage(i,self.db)
def main():
db = dbConnect('db.sqlite')
#dp = downloaderPool()
#dp.setdb(db)
sp = singleDownloader()
sp.setdb(db)
dp=sp
unDownloadedList = db.getList()
#当还有未下载的糗事时就要继续下载
while(len(unDownloadedList)):
#使用该列表填充下载池
dp.setDownloadList(unDownloadedList)
dp.beginDownload()
time.sleep(1)
#重置参数
unDownloadedList = db.getList()
if __name__ == '__main__':
main()
代码是没问题的,可以正常运行,但是希望做到以下2方面:
1、多线程下载
2、代码分离度更高,跟面向对象
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
糗事百科怎么看附近的人?糗事百科查看附近的人方法介绍。糗事百科是一款十分好玩的娱乐软件,在糗事百科中你可以查看附近的人,邀请ta来一起逗逼搞笑,那么糗事百科
糗事百科怎么签到?糗事百科签到方法介绍。糗事百科是一款给大家打来快乐的软件,在糗事百科中各式各样好玩有趣的段子,让你爆笑不断,在糗事百科中还有签到功能,签到
糗事百科怎么发小纸条?糗事百科发小纸条方法介绍。糗事百科是一款款娱乐爆笑软件,在糗事百科中有个小纸条的功能,法小纸条给小伙伴可以互相吐槽,那么糗事百科怎么发
糗事百科怎么发糗事?糗事百科发糗事方法。糗事百科是一款可以看很多糗事段子的娱乐平台,当然你也可以把自己身边的糗事发布出去,让更多人看到有有趣的事情,那么糗事
项目内容:用Python写的糗事百科的网络爬虫。使用方法:新建一个Bug.py文件,然后将代码复制到里面后,双击运行。程序功能:在命令提示行中浏览糗事百科。原理