时间:2021-05-23
先看官网上的说明,http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
Scrapy是一个非常好用的爬虫框架,它不仅提供了一些开箱即用的基础组件,还提供了强大的自定义功能。
# Scrapy 安装
Scrapy 官网:https://scrapy.org/
各位同学的电脑环境应该和小编的相差不远(如果是使用 win10 的话) 安装过程需要10分钟左右
安装命令:
pip install scrapy由于 Scrapy 依赖了大量的第三方的包,所以在执行上面的命令后并不会马上就下载 Scrapy ,而是会先不断的下载第三方包,包括并不限于以下几种:
如果安装不成功多试两次 或者 执行pip install --upgrade pip 后再执行 pip install scrapy
等待命令执行完成后,直接输入 scrapy 进行验证。
C:\Users\Administrator>scrapyScrapy 2.4.0 - no active projectAvailable commands:bench Run quick benchmark test...版本号可能会有差别,不用太在意
如果能正常出现以上内容,说明我们已经安装成功了。
理论上 Scrapy 安装出现各种问题才算正常情况
Scrapy 提供了一个命令来创建项目 scrapy 命令,在命令行上运行:
scrapy startproject jianshu我们创建一个项目jianshu用来爬取简书首页热门文章的所有信息。
jianshu/ scrapy.cfg jianshu/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ...spiders文件夹下就是你要实现爬虫功能(具体如何爬取数据的代码),爬虫的核心。在spiders文件夹下自己创建一个spider,用于爬取简书首页热门文章。
scrapy.cfg是项目的配置文件。
settings.py用于设置请求的参数,使用代理,爬取数据后文件保存等。
items.py 自己预计需要爬取的内容
middlewares.py自定义中间件的文件
pipelines.py 管道,保持数据
项目的目录就用网图来展示一下吧
image Scrapy爬取简书首页热门文章
cd到Jianshu项目中,生成一个爬虫:
scrapy genspider jianshublog /'] def parse(self, response): blogs = response.css('.note-list .content') # 获取博客列表 for blog in blogs: # 遍历博客列表 title = blog.css('.title::text').extract_first() # 提取标题 link = blog.css('.title::attr(href)').extract_first() # 提取链接 nickname = blog.css('.nickname::text').extract_first() # 提作者 print("标题:",title) # 打印标题 # print("链接:", link) # print("作者:", nickname)最后别忘了执行爬虫命令
scrapy crawl jianshublog整个项目就完成啦
下一讲我们把文章数据爬取出来,存储在csv文件里面
到此这篇关于一文读懂python Scrapy爬虫框架的文章就介绍到这了,更多相关python Scrapy爬虫框架内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助。1、Scrapy爬虫框架Scrapy是一个使用Python编程语言编写的爬虫框架,任何
题记:早已听闻python爬虫框架的大名。近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享。有表述不当之处,望大神们斧正。一、初窥ScrapyS
一般网站发布信息会在具体实现范围内发布,我们在进行网络爬虫的过程中,可以通过设置定时爬虫,定时的爬取网站的内容。使用python爬虫框架Scrapy框架可以实现
前言众所周知scrapy是Python中鼎鼎大名的爬虫框架,在安装scrapy过程中碰到了openssl某个文件找不到的问题,并进行了分析,记录之。一、scra
python书写爬虫的一个框架,它也提供了多种类型爬虫的基类,scrapy用途广泛,可以用于数据挖掘、监测和自动化测试首先要先安装python安装完成以后,配置