时间:2021-05-22
在用BeautifulSoup进行抓取页面的时候,会各种各样的编码错误。
可以通过在beautifulsoup中指定字符编码,解决问题。
复制代码 代码如下:
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen('http://');
soup = BeautifulSoup(page,from_encoding="gb2312")
print soup.originalEncoding
print soup.prettify()
红色部分表示需要注意的地方。在BeautifulSoup构造器中传入fromEncoding参数即可解决乱码问题,当然具体参数值是什么就要看你获取页面的编码是什么
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
本文实例讲述了Python设置默认编码为utf8的方法。分享给大家供大家参考,具体如下:这是Python的编码问题,设置python的默认编码为utf8pyth
本文实例讲述了python使用BeautifulSoup分页网页中超链接的方法。分享给大家供大家参考。具体如下:python通过BeautifulSoup分页网
现在有一批完整的关于介绍城市美食、景点等的html页面,需要将里面body的内容提取出来方法:利用python插件beautifulSoup获取htmlbody
最近一直在研究python+selenium+beautifulsoup的爬虫,但是存入数据库还有写入txt文件里面的时候一直都是unicode编码的格式。接下
本文为大家分享了Python爬虫包BeautifulSoup学习实例,具体内容如下BeautifulSoup使用BeautifulSoup抓取豆瓣电影的一些信息