Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码

时间：2021-05-22

大家可以在Github上clone全部源码。

Github：https://github.com/williamzxl/Scrapy_CrawlMeiziTu

Scrapy官方文档：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

基本上按照文档的流程走一遍就基本会用了。

Step1：

在开始爬取之前，必须创建一个新的Scrapy项目。进入打算存储代码的目录中，运行下列命令:

scrapy startproject CrawlMeiziTu

该命令将会创建包含下列内容的 tutorial 目录:

CrawlMeiziTu/ scrapy.cfg CrawlMeiziTu/ __init__.py items.py pipelines.py settings.py　　　　 middlewares.py spiders/ __init__.py ...cd CrawlMeiziTuscrapy genspider Meizitu http:///a/{}".format(next_link[-2]) # item['page_url'] = nextPage # yield item #抓取每个文件夹的信息 def parse_item(self, response): item = CrawlmeizituItem() selector = scrapy.Selector(response) image_title = selector.xpath('//h2/a/text()').extract() image_url = selector.xpath('//h2/a/@href').extract() image_tags = selector.xpath('//div[@class="metaRight"]/p/text()').extract() if selector.xpath('//*[@id="picture"]/p/img/@src').extract(): image_src = selector.xpath('//*[@id="picture"]/p/img/@src').extract() else: image_src = selector.xpath('//*[@id="maincontent"]/div/p/img/@src').extract() if selector.xpath('//*[@id="picture"]/p/img/@alt').extract(): pic_name = selector.xpath('//*[@id="picture"]/p/img/@alt').extract() else: pic_name = selector.xpath('//*[@id="maincontent"]/div/p/img/@alt').extract() #//*[@id="maincontent"]/div/p/img/@alt item['title'] = image_title item['url'] = image_url item['tags'] = image_tags item['src'] = image_src item['alt'] = pic_name print(item) time.sleep(1) yield item

总结

以上所述是小编给大家介绍的Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码，希望对大家有所帮助，如果大家啊有任何疑问欢迎给我留言，小编会及时回复大家的！

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码

相关文章

Scrapy爬虫实例讲解_校花网

Python爬虫Scrapy框架CrawlSpider原理及使用案例

python中用Scrapy实现定时爬虫的实例讲解

python爬虫框架scrapy实战之爬取京东商城进阶篇

scrapy spider的几种爬取方式实例代码