时间:2021-05-22
Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。它有如下三个特点:
首先,我们要安装它:pip install bs4,然后安装 pip install beautifulsoup4.
Beautiful Soup支持的解析器
下面我们以lxml解析器为例:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>', 'lxml')
print(soup.p.string)
结果:
Hello
beautiful soup美化的效果实例:
html = """<html><head><title>The Dormouse's story</title></head><body><p class="title" name="dromouse"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were<a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" rel="external nofollow" class="sister" id="link1"><!-- Elsie --></a>,<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and<a href="http://example.com/tillie" rel="external nofollow" rel="external nofollow" rel="external nofollow" class="sister" id="link3">Tillie</a>;and they lived at the bottom of a well.</p><p class="story">...</p>"""from bs4 import BeautifulSoupsoup = BeautifulSoup(html, 'lxml')#调用prettify()方法。这个方法可以把要解析的字符串以标准的缩进格式输出print(soup.prettify())print(soup.title.string)结果:
<html> <head> <title> The Dormouse's story </title> </head> <body> <p class="title" name="dromouse"> <b> The Dormouse's story </b> </p> <p class="story"> Once upon a time there were three little sisters; and their names were <a class="sister" href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" rel="external nofollow" id="link1"> <!-- Elsie --> </a> , <a class="sister" href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" rel="external nofollow" id="link2"> Lacie </a> and <a class="sister" href="http://example.com/tillie" rel="external nofollow" rel="external nofollow" rel="external nofollow" id="link3"> Tillie </a> ;and they lived at the bottom of a well. </p> <p class="story"> ... </p> </body></html>The Dormouse's story下面举例说明选择元素、属性、名称的方法
html = """<html><head><title>The Dormouse's story</title></head><body><p class="title" name="dromouse"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were<a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" rel="external nofollow" class="sister" id="link1"><!-- Elsie --></a>,<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and<a href="http://example.com/tillie" rel="external nofollow" rel="external nofollow" rel="external nofollow" class="sister" id="link3">Tillie</a>;and they lived at the bottom of a well.</p><p class="story">...</p>"""from bs4 import BeautifulSoupsoup = BeautifulSoup(html, 'lxml')print('输出结果为title节点加里面的文字内容:\n',soup.title)print('输出它的类型:\n',type(soup.title))print('输出节点的文本内容:\n',soup.title.string)print('结果是节点加其内部的所有内容:\n',soup.head)print('结果是第一个p节点的内容:\n',soup.p)print('利用name属性获取节点的名称:\n',soup.title.name)#这里需要注意的是,有的返回结果是字符串,有的返回结果是字符串组成的列表。# 比如,name属性的值是唯一的,返回的结果就是单个字符串。# 而对于class,一个节点元素可能有多个class,所以返回的是列表。print('每个节点可能有多个属性,比如id和class等:\n',soup.p.attrs)print('选择这个节点元素后,可以调用attrs获取所有属性:\n',soup.p.attrs['name'])print('获取p标签的name属性值:\n',soup.p['name'])print('获取p标签的class属性值:\n',soup.p['class'])print('获取第一个p节点的文本:\n',soup.p.string)结果:
输出结果为title节点加里面的文字内容:<title>The Dormouse's story</title>输出它的类型:<class 'bs4.element.Tag'>输出节点的文本内容:The Dormouse's story结果是节点加其内部的所有内容:<head><title>The Dormouse's story</title></head>结果是第一个p节点的内容:<p class="title" name="dromouse"><b>The Dormouse's story</b></p>利用name属性获取节点的名称:title每个节点可能有多个属性,比如id和class等:{'class': ['title'], 'name': 'dromouse'}选择这个节点元素后,可以调用attrs获取所有属性:dromouse获取p标签的name属性值:dromouse获取p标签的class属性值:['title']获取第一个p节点的文本:The Dormouse's story在上面的例子中,我们知道每一个返回结果都是bs4.element.Tag类型,它同样可以继续调用节点进行下一步的选择。
html = """<html><head><title>The Dormouse's story</title></head><body>"""from bs4 import BeautifulSoupsoup = BeautifulSoup(html, 'lxml')print('获取了head节点元素,继续调用head来选取其内部的head节点元素:\n',soup.head.title)print('继续调用输出类型:\n',type(soup.head.title))print('继续调用输出内容:\n',soup.head.title.string)结果:
获取了head节点元素,继续调用head来选取其内部的head节点元素: <title>The Dormouse's story</title>继续调用输出类型: <class 'bs4.element.Tag'>继续调用输出内容: The Dormouse's story(1)find_all()
find_all,顾名思义,就是查询所有符合条件的元素。给它传入一些属性或文本,就可以得到符合条件的元素,它的功能十分强大。
find_all(name , attrs , recursive , text , **kwargs)
他的用法:
html='''<div class="panel"> <div class="panel-heading"> <h4>Hello</h4> </div> <div class="panel-body"> <ul class="list" id="list-1"> <li class="element">Foo</li> <li class="element">Bar</li> <li class="element">Jay</li> </ul> <ul class="list list-small" id="list-2"> <li class="element">Foo</li> <li class="element">Bar</li> </ul> </div></div>'''from bs4 import BeautifulSoupsoup = BeautifulSoup(html, 'lxml')print('查询所有ul节点,返回结果是列表类型,长度为2:\n',soup.find_all(name='ul'))print('每个元素依然都是bs4.element.Tag类型:\n',type(soup.find_all(name='ul')[0]))#将以上步骤换一种方式,遍历出来for ul in soup.find_all(name='ul'): print('输出每个u1:',ul.find_all(name='li'))#遍历两层for ul in soup.find_all(name='ul'): print('输出每个u1:',ul.find_all(name='li')) for li in ul.find_all(name='li'): print('输出每个元素:',li.string)结果:
查询所有ul节点,返回结果是列表类型,长度为2: [<ul class="list" id="list-1"><li class="element">Foo</li><li class="element">Bar</li><li class="element">Jay</li></ul>, <ul class="list list-small" id="list-2"><li class="element">Foo</li><li class="element">Bar</li></ul>]每个元素依然都是bs4.element.Tag类型: <class 'bs4.element.Tag'>输出每个u1: [<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>]输出每个u1: [<li class="element">Foo</li>, <li class="element">Bar</li>]输出每个u1: [<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>]输出每个元素: Foo输出每个元素: Bar输出每个元素: Jay输出每个u1: [<li class="element">Foo</li>, <li class="element">Bar</li>]输出每个元素: Foo输出每个元素: Bar以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
本文实例讲述了python中list循环语句用法。分享给大家供大家参考。具体用法分析如下:Python的强大特性之一就是其对list的解析,它提供一种紧凑的方法
本文实例讲述了Python面向对象之继承和组合用法。分享给大家供大家参考,具体如下:面向对象的组合用法软件重用的重要方式除了继承之外还有另外一种方式,即:组合组
本文实例总结了Python正则表达式基本用法。分享给大家供大家参考,具体如下:正则表达式在平时做文本处理(爬虫程序去解析html中的字段,在分析log文件的时候
今天谈一下关于python中input的一些基本用法(写给新手入门之用,故只谈比较实用的部分)。首先,我们可以看一下官方文档给我们的解释(在python的she
本文实例讲述了python命令行参数解析OptionParser类的用法,分享给大家供大家参考。具体代码如下:fromoptparseimportOptionP