时间:2021-05-22
本文实例讲述了Python使用scrapy采集数据时为每个请求随机分配user-agent的方法。分享给大家供大家参考。具体分析如下:
通过这个方法可以每次请求更换不同的user-agent,防止网站根据user-agent屏蔽scrapy的蜘蛛
首先将下面的代码添加到settings.py文件,替换默认的user-agent处理模块
复制代码 代码如下:DOWNLOADER_MIDDLEWARES = {
'scraper.random_user_agent.RandomUserAgentMiddleware': 400,
'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
}
自定义useragent处理模块
复制代码 代码如下:from scraper.settings import USER_AGENT_LIST
import random
from scrapy import log
class RandomUserAgentMiddleware(object):
def process_request(self, request, spider):
ua = random.choice(USER_AGENT_LIST)
if ua:
request.headers.setdefault('User-Agent', ua)
#log.msg('>>>> UA %s'%request.headers)
希望本文所述对大家的Python程序设计有所帮助。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
本文实例讲述了Python基于scrapy采集数据时使用代理服务器的方法。分享给大家供大家参考。具体如下:#Toauthenticatetheproxy,#yo
1.python爬虫浏览器伪装#导入urllib.request模块importurllib.request#设置请求头headers=("User-Agent
一、requests设置请求头:importrequestsurl="http:///','User-Agent':'Mozilla/5.0(WindowsNT
一、常用参数参数说明--headless开启无界面模式(服务器中不加此配置会报错)--user-agent=请求头配置对象添加User-Agent--windo
会用到的功能的简单介绍1、frombs4importBeautifulSoup#导入库2、请求头herdersheaders={'User-Agent':'Mo