时间:2021-05-22
python 3.4 所写爬虫
仅仅是个demo,以百度图片首页图片为例。能跑出图片上的图片;
使用 eclipse pydev 编写:
from SpiderSimple.HtmLHelper import *import impimport sysimp.reload(sys) #sys.setdefaultencoding('utf-8') html = getHtml('http://image.baidu.com/')try: getImage(html) exit()except Exception as e: print(e)HtmlHelper.py文件
上面的 SpiderSimple是自定义的包名
from urllib.request import urlopen,urlretrieve#正则库import re#打开网页def getHtml(url): page = urlopen(url) html = page.read() return html#用正则爬里面的图片地址 def getImage(Html): try: #reg = r'src="(.+?\.jpg)" class' #image = re.compile(reg) image = re.compile(r'<img[^>]*src[=\"\']+([^\"\']*)[\"\'][^>]*>', re.I) Html = Html.decode('utf-8') imaglist = re.findall(image,Html) x =0 for imagurl in imaglist: #将图片一个个下载到项目所在文件夹 urlretrieve(imagurl, '%s.jpg' % x) x+=1 except Exception as e: print(e)要注意个大问题,python 默认编码的问题。
有可能报UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128),错误。这个要设置python的默认编码为utf-8.
设置最好的方式是写bat文件,
echo offset PYTHONIOENCODING=utf8python -u %1然后重启电脑。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对的支持。如果你想了解更多相关内容请查看下面相关链接
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
问题:python3如何转换html到pdf描述:我的电脑是windows764位,python3.4我想用python转换html到pdf.我尝试了html2
基于python3.5,python2.7与python3.4的urllib不同,是urlparse>>>fromurllibimportparse>>>url
更新python和pip版本1.1,安装python注意设置环境变量1.2,安装pip(python3.4以上自带pip)下载pippython.exeget-
环境:window7x64、python3.4、django1.10一、pipinstallxadmin安装报错1、使用pipinstallxadmin命令安装
环境:Ubuntu14、Python3.4、Pycharm2018一、使用command=lambda:的形式传参代码如下fromtkinterimport*i