Python利用Beautiful Soup模块创建对象详解

时间:2021-05-22

安装

通过 pip 安装 Beautiful Soup 模块:pip install beautifulsoup4 。

还可以使用 PyCharm IDE 来写代码,在 PyCharm 中的 Preferences 中找到 Project ,在里面搜索 Beautiful Soup 模块,进行安装即可。

创建 BeautifulSoup 对象

Beautiful Soup 模块广泛使用从网页中得到数据。我们能够使用 Beautiful Soup 模块从 HTML/XML 文档中提取任何数据,例如,网页中的所有链接或者标签内的内容。

为了实现这一点,Beautiful Soup 提供了不同的对象和方法。任何的 HTML/XML 文档能够转化成不同的 Beautiful Soup 对象,这些对象有着不同的属性和方法,我们能够从中提取到需要的数据。

Beautiful Soup 总共有如下三种对象:

  • BeautifulSoup
  • Tag
  • NavigableString
  • 创建 BeautifulSoup 对象

    创建一个 BeautifulSoup 对象是任何 Beautiful Soup 工程的起点。

    BeautifulSoup 可以通过传一个字符串或者类文件对象(file-like object),例如机器上的文件或者网页。

    通过字符串创建 BeautifulSoup 对象

    在 BeautifulSoup 的构造器中通过传递一个字符串来创建对象。

    helloworld = '<p>Hello World</p>'soup_string = BeautifulSoup(helloworld)print soup_string <html><body><p>Hello World</p></body></html>

    通过类文件对象创建 BeautifulSoup 对象

    在 BeautifulSoup 的构造器中通过传递一个类文件对象(file-like object)来创建对象。这在解析在线网页时非常有用。

    url = "http://'}

    创建 NavigableString 对象

    NavigableString 对象持有 HTML 或 XML 标签的文本内容。这是一个 Unicode 编码的字符串。

    我们可以通过 .string 的方式得到标签的本文内容 。

    navi = atag.stringprint type(navi)print navi.string

    小结

    代码小结如下:

    BeautifulSoup

    • soup = BeautifulSoup(String)
    • soup = BeautifulSoup(String,features=”xml”)

    Tag

    • tag = soup.tag
    • tag.name
    • tag[‘attribute']

    NavigableString

    • soup.tag.string

    总结

    以上就是关于Python使用Beautiful Soup模块创建对象的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流。

    声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。

    相关文章