Scrapy框架爬取西刺代理网免费高匿代理的实现代码

时间:2021-05-22

分析

需求:

爬取西刺代理网免费高匿代理,并保存到MySQL数据库中。

这里只爬取前10页中的数据。

思路:

  • 分析网页结构,确定数据提取规则
  • 创建Scrapy项目
  • 编写item,定义数据字段
  • 编写spider,实现数据抓取
  • 编写Pipeline,保存数据到数据库中
  • 配置settings.py文件
  • 运行爬虫项目
  • 代码实现

    items.py

    import scrapyclass XicidailiItem(scrapy.Item): # 国家 country=scrapy.Field() # IP地址 ip=scrapy.Field() # 端口号 port=scrapy.Field() # 服务器地址 address=scrapy.Field() # 是否匿名 anonymous=scrapy.Field() # 类型 type=scrapy.Field() # 速度 speed=scrapy.Field() # 连接时间 connect_time=scrapy.Field() # 存活时间 alive_time=scrapy.Field() # 验证时间 verify_time=scrapy.Field()

    xicidaili_spider.py

    # !/usr/bin/env python# -*- coding:utf-8 -*-import scrapyfrom myscrapy.items import XicidailiItemclass XicidailiSpider(scrapy.Spider): name = 'xicidaili' allowed_domains=['mit() def close_spider(self,spider): self.connection.close()

    settings.py

    ITEM_PIPELINES = { 'myscrapy.pipelines.XicidailiPipeline': 300,}

    结果

    总结

    以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对的支持。如果你想了解更多相关内容请查看下面相关链接

    声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。

    相关文章