python实现多线程抓取知乎用户

时间：2021-05-22

需要用到的包：

beautifulsoup4
html5lib
image
requests
redis
PyMySQL

pip安装所有依赖包：

pip install \Image \requests \beautifulsoup4 \html5lib \redis \PyMySQL

运行环境需要支持中文

测试运行环境python3.5，不保证其他运行环境能完美运行

需要安装mysql和redis

配置 config.ini 文件，设置好mysql和redis，并且填写你的知乎帐号

向数据库导入 init.sql

Run

开始抓取数据: python get_user.py
查看抓取数量: python check_redis.py

效果

总体思路

1.首先是模拟登陆知乎，利用保存登陆的cookie信息
2.抓取知乎页面的html代码，留待下一步继续进行分析提取信息
3.分析提取页面中用户的个性化url，放入redis（这里特别说明一下redis的思路用法，将提取到的用户的个性化url放入redis的一个名为already_get_user的hash table，表示已抓取的用户，对于已抓取过的用户判断是否存在于already_get_user以去除重复抓取，同时将个性化url放入user_queue的队列中，需要抓取新用户时pop队列获取新的用户）
4.获取用户的关注列表和粉丝列表，继续插入到redis
5.从redis的user_queue队列中获取新用户继续重复步骤3

模拟登陆知乎

首先是登陆，登陆功能作为一个包封装了在login里面，方便整合调用

header部分，这里Connection最好设为close，不然可能会碰到max retireve exceed的错误
原因在于普通的连接是keep-alive的但是却又没有关闭

# http请求的headerheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", "Host": "/kong36088/ZhihuSpider

本站下载地址： http://xiazai.jb51.net/201612/yuanma/ZhihuSpider(jb51.net).zip

python实现多线程抓取知乎用户

相关文章

python爬虫开发之使用Python爬虫库requests多线程抓取猫眼电影TOP100实例

Python 多线程抓取图片效率对比

Python多线程编程（四）：使用Lock互斥锁

php使用pthreads v3多线程实现抓取新浪新闻信息操作示例

Python实现多线程的两种方式分析