Python爬虫实现网页信息抓取功能示例【URL与正则模块】

时间：2021-05-22

本文实例讲述了Python爬虫实现网页信息抓取功能。分享给大家供大家参考，具体如下：

首先实现关于网页解析、读取等操作我们要用到以下几个模块

import urllibimport urllib2import re

我们可以尝试一下用readline方法读某个网站，比如说百度

def test(): f=urllib.urlopen('http:///p/4638659116'bdtb=BDTB(baseURL,1)print '爬虫正在启动....'.encode('gbk')#多页bdtb.Title()print '抓取标题完毕！'.encode('gbk')for i in range(1,11): print '正在抓取第%02d页'.encode('gbk')%i bdtb.Text(i)print '抓取正文完毕!'.encode('gbk')

PS：这里再为大家提供2款非常方便的正则表达式工具供大家参考使用：

JavaScript正则表达式在线测试工具：
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具：
http://tools.jb51.net/regex/create_reg

更多关于Python相关内容可查看本站专题：《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python Socket编程技巧总结》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

Python爬虫实现网页信息抓取功能示例【URL与正则模块】

相关文章

python爬虫开发之Beautiful Soup模块从安装到详细使用方法与实例

python爬虫开发之使用Python爬虫库requests多线程抓取猫眼电影TOP100实例

Python正则抓取网易新闻的方法示例

Python视频爬虫实现下载头条视频功能示例

Python并发爬虫常用实现方法解析