时间:2021-05-22
前言
其实Beautiful Soup 模块除了能够搜索和导航之外,还能够修改 HTML/XML 文档的内容。这就意味着能够添加或删除标签、修改标签名称、改变标签属性值和修改文本内容等等。这篇文章非常详细的给大家介绍了Python利用Beautiful Soup模块修改内容的方法,下面话不多说,来看看详细的介绍吧。
修改标签
使用的示例 HTML 文档还是如下:
html_markup=""" <div class="ecopyramid"> <ul id="producers"> <li class="producerlist"> <div class="name">plants</div> <div class="number">100000</div> </li> <li class="producerlist"> <div class="name">algae</div> <div class="number">100000</div> </li> </ul> </div> """修改标签名称
soup = BeautifulSoup(html_markup,'lxml')producer_entries = soup.ulprint producer_entries.nameproducer_entries.name = "div"print producer_entries.prettify()修改标签属性值
# 修改标签属性# 更新标签现有的属性值producer_entries['id'] = "producers_new_value"print producer_entries.prettify()# 标签添加新的属性值producer_entries['class'] = "newclass"print producer_entries.prettify()# 删除标签属性值del producer_entries['class']print producer_entries.prettify()添加新的标签
我们可以使用 new_tag 方法来生成一个新的标签,然后使用 append() 、insert() 、insert_after() 、insert_before()方法来将标签添加到 HTML 树中。
例如在上述的 HTML 文档的 ul 标签中添加一个 li 标签 。首先要生成新的 li 标签,然后将其插入到 HTML 树结构中 。并在 li 标签中插入相应的 div 标签。
# 添加新的标签# new_tag 生成一个 tag 对象new_li_tag = soup.new_tag("li")# 标签对象添加属性的方法new_atag = soup.new_tag("a",href="pose()print third_producer.prettify()# 使用 extract() 方法删除节点third_producer_removed = third_producer.extract()print soup.prettify()删除标签内容
标签可能有 NavigableString 对象或者 Tag 对象作为它的子节点,移除所有的这些子节点可以使用 clear() 方法。这将会移除标签的所有的 .content。
修改内容的其他方法
除了上面说到的方法,还有其他方法用来修改内容。
insert_after() 和 insert_before() 方法
上面的两个方法能够在标签或者字符串的前面或者后面插入一个标签或者字符串。方法只能接收一个参数,要么是 NavigableString 对象要么是 Tag 对象。
replace_with() 方法
该方法是用一个新的标签或字符串内容替代原来的标签或者字符串,能够接收一个标签或者字符串作为输入。
wrap() 和 unwrap() 方法
wrap() 方法是用另一个标签来包裹一个标签或者字符串。
unwrap() 方法则和 wrap() 方法相反。
总结
以上就是关于Python使用Beautiful Soup 模块修改内容的全部内容了,希望本文的内容对大家学习或者使用python能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对的支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
python如何更新修改后的Python模块1.利用python的MySQLdb模块利用原生的sql语句进行更新的方法代码配置方法代码2.使用execute方法
1.善于利用soup节点的parent属性比如对于已经得到了如下html代码:November2012的soup变量eachMonthHeader了。想要提取其
Python标准库itertools模块介绍itertools是python内置的模块,使用简单且功能强大,这里尝试汇总整理下,并提供简单应用示例;如果还不能满
在做深度学习相关项目时,需要标注图片,筛选过后图片名字带有括号,显得比较乱,因此利用python进行统一规范重命名操作实现方法是利用python的os模块对文件
本文实例讲述了Python模块的制作方法。分享给大家供大家参考,具体如下:1目的利用setup.py将框架安装到python环境中,作为第三方模块来调用,2第一