Python爬虫辅助利器PyQuery模块的安装使用攻略

时间:2021-05-22

Windows下的安装:
下载地址:https://pypi.python.org/pypi/pyquery/#downloads
下载后安装:

C:\Python27>easy_install E:\python\pyquery-1.2.4.zip

也可以直接在线安装:

C:\Python27>easy_install pyquery

pyquery是一个类似jquery的python库,可以使用像jquery那样的语法来提取网页中的任何数据,这个用于html网页的数据提取和挖掘还是一个很不错的第三方库的。下面我们来看下pyquery的用法有哪些。

从html字符串中提取信息

#!/usr/bin/python# -*- coding: utf-8 -*-from pyquery import PyQuery as pqhtml = '''<html><head> <title>this is title</title></head><body> <p id="hi">Hello, World</p> <p id="hi2">Nihao</p> <div class="class1"> <img src="1.jpg" /> </div> <ul> <li>list1</li> <li>list2</li> </ul></body></html>'''d=pq(html)print d('title') # 相当于css选择器,根据html标签获取元素print d('title').text() # text()方法获取当前选中的文本块print d('#hi').text() # 相当于id选择器,直接根据id名获取元素print d('p').filter('#hi2').text() # 可以根据id或class得到指定元素print d('.class1') # 相当于class选择器print d('.class1').html() # html()方法获取当前选中的html块print d('.class1').find('img').attr('src') # 查找嵌套元素,并选中属性print d('ul').find('li').eq(0).text() # 根据索引号获取多个相同html元素中的某一个print d('ul').children() # 获取所有子元素print d('ul').children().eq(0) #根据索引获取子元素print d('img').parents() # 获取父元素print d('#hi').next() # 获取下一个元素print d('#hi').nextAll() #获取后面全部元素块print d('p').not_('#hi2') # 返回不匹配选择器的元素# 遍历所有匹配的元素for i in d.items('li'): print i.text()print [i.text() for i in d.items('li')] # 遍历用于列表推倒print d.make_links_absolute(base_url='http:///top250?start=225
所以可以写个循环把它们都抓下来。

声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。

相关文章