时间:2021-05-22
Windows下的安装:
下载地址:https://pypi.python.org/pypi/pyquery/#downloads
下载后安装:
也可以直接在线安装:
pyquery是一个类似jquery的python库,可以使用像jquery那样的语法来提取网页中的任何数据,这个用于html网页的数据提取和挖掘还是一个很不错的第三方库的。下面我们来看下pyquery的用法有哪些。
从html字符串中提取信息
#!/usr/bin/python# -*- coding: utf-8 -*-from pyquery import PyQuery as pqhtml = '''<html><head> <title>this is title</title></head><body> <p id="hi">Hello, World</p> <p id="hi2">Nihao</p> <div class="class1"> <img src="1.jpg" /> </div> <ul> <li>list1</li> <li>list2</li> </ul></body></html>'''d=pq(html)print d('title') # 相当于css选择器,根据html标签获取元素print d('title').text() # text()方法获取当前选中的文本块print d('#hi').text() # 相当于id选择器,直接根据id名获取元素print d('p').filter('#hi2').text() # 可以根据id或class得到指定元素print d('.class1') # 相当于class选择器print d('.class1').html() # html()方法获取当前选中的html块print d('.class1').find('img').attr('src') # 查找嵌套元素,并选中属性print d('ul').find('li').eq(0).text() # 根据索引号获取多个相同html元素中的某一个print d('ul').children() # 获取所有子元素print d('ul').children().eq(0) #根据索引获取子元素print d('img').parents() # 获取父元素print d('#hi').next() # 获取下一个元素print d('#hi').nextAll() #获取后面全部元素块print d('p').not_('#hi2') # 返回不匹配选择器的元素# 遍历所有匹配的元素for i in d.items('li'): print i.text()print [i.text() for i in d.items('li')] # 遍历用于列表推倒print d.make_links_absolute(base_url='http:///top250?start=225声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
本文实例讲述了python爬虫学习笔记之pyquery模块基本用法。分享给大家供大家参考,具体如下:相关内容:pyquery的介绍pyquery的使用安装模块导
Pythonrequests模块 requests模块是我们使用的python爬虫模块可以完成市场进80%的爬虫需求。安装pipinstallrequests
setuptools模块和pip模块是python进行第三方库扩展的极重要工具,例如我们在需要安装一些爬虫或者数据分析的包时就可以使用pipinstall命令来
基本模块python爬虫,webspider。爬取网站获取网页数据,并进行分析提取。基本模块使用的是urllib,urllib2,re,等模块基本用法,例子:(
本文研究的主要是Python使用requests及BeautifulSoup构建一个网络爬虫,具体步骤如下。功能说明在Python下面可使用requests模块