Scrapy爬虫实例讲解_校花网

时间：2021-05-22

学习爬虫有一段时间了，今天使用Scrapy框架将校花网的图片爬取到本地。Scrapy爬虫框架相对于使用requests库进行网页的爬取，拥有更高的性能。

Scrapy官方定义：Scrapy是用于抓取网站并提取结构化数据的应用程序框架，可用于广泛的有用应用程序，如数据挖掘，信息处理或历史存档。

建立Scrapy爬虫工程

在安装好Scrapy框架后，直接使用命令行进行项目的创建：

E:\ScrapyDemo>scrapy startproject xiaohuarNew Scrapy project 'xiaohuar', using template directory 'c:\\users\\lei\\appdata\\local\\programs\\python\\python35\\lib\\site-packages\\scrapy\\templates\\project', created in: E:\ScrapyDemo\xiaohuarYou can start your first spider with: cd xiaohuar scrapy genspider example example.com

创建一个Scrapy爬虫

创建工程的时候，会自动创建一个与工程同名的目录，进入到目录中执行如下命令：

E:\ScrapyDemo\xiaohuar>scrapy genspider -t basic xiaohua xiaohuar.comCreated spider 'xiaohua' using template 'basic' in module:xiaohuar.spiders.xiaohua命令中"xiaohua"

是生成Spider中*.py文件的文件名，"xiaohuar.com"是将要爬取网站的URL，可以在程序中更改。

编写Spider代码

编写E:\ScrapyDemo\xiaohuar\xiaohuar\spiders中的xiaohua.py文件。主要是配置URL和对请求到的页面的解析方式。

# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Requestimport reclass XiaohuaSpider(scrapy.Spider): name = 'xiaohua' allowed_domains = ['xiaohuar.com'] start_urls = [] for i in range(43): url = "http://%2Fimage%2Fpic%2Fitem%2Fc9fcc3cec3fdfc038b027f7bde3f8794a5c226fe.jpg")>>> open("E:\xiaohua_img\01.jpg",'wb').write(r.content) File "<stdin>", line 1SyntaxError: (unicode error) 'unicodeescape' codec can't decode by>>> open("E:\\xiaohua_img\1.jpg",'wb').write(r.content)Traceback (most recent call last): File "<stdin>", line 1, in <module>OSError: [Errno 22] Invalid argument: 'E:\\xiaohua_img\x01.jpg'>>> open("E:\\xiaohua_img\\1.jpg",'wb').write(r.content)

以上这篇Scrapy爬虫实例讲解_校花网就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

Scrapy爬虫实例讲解_校花网

相关文章

浅谈Scrapy网络爬虫框架的工作原理和数据采集

Python爬虫框架Scrapy常用命令总结

Scrapy爬虫文件批量运行的实现

pycharm创建scrapy项目教程及遇到的坑解析

python爬虫实例详解