时间:2021-05-22
安装
通过 pip 安装 Beautiful Soup 模块:pip install beautifulsoup4 。
还可以使用 PyCharm IDE 来写代码,在 PyCharm 中的 Preferences 中找到 Project ,在里面搜索 Beautiful Soup 模块,进行安装即可。
创建 BeautifulSoup 对象
Beautiful Soup 模块广泛使用从网页中得到数据。我们能够使用 Beautiful Soup 模块从 HTML/XML 文档中提取任何数据,例如,网页中的所有链接或者标签内的内容。
为了实现这一点,Beautiful Soup 提供了不同的对象和方法。任何的 HTML/XML 文档能够转化成不同的 Beautiful Soup 对象,这些对象有着不同的属性和方法,我们能够从中提取到需要的数据。
Beautiful Soup 总共有如下三种对象:
创建 BeautifulSoup 对象
创建一个 BeautifulSoup 对象是任何 Beautiful Soup 工程的起点。
BeautifulSoup 可以通过传一个字符串或者类文件对象(file-like object),例如机器上的文件或者网页。
通过字符串创建 BeautifulSoup 对象
在 BeautifulSoup 的构造器中通过传递一个字符串来创建对象。
helloworld = '<p>Hello World</p>'soup_string = BeautifulSoup(helloworld)print soup_string <html><body><p>Hello World</p></body></html>通过类文件对象创建 BeautifulSoup 对象
在 BeautifulSoup 的构造器中通过传递一个类文件对象(file-like object)来创建对象。这在解析在线网页时非常有用。
url = "http://'}创建 NavigableString 对象
NavigableString 对象持有 HTML 或 XML 标签的文本内容。这是一个 Unicode 编码的字符串。
我们可以通过 .string 的方式得到标签的本文内容 。
navi = atag.stringprint type(navi)print navi.string小结
代码小结如下:
BeautifulSoup
Tag
NavigableString
总结
以上就是关于Python使用Beautiful Soup模块创建对象的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
Python多线程的实例详解一)线程基础1、创建线程:thread模块提供了start_new_thread函数,用以创建线程。start_new_thread
Python写入Excel有时需要合并单元格、或者改变文字内容的颜色首先导入xlwt模块importxlwt创建文件名创建Excel工作簿对象创建工作表创建样式
在python中,命令行解析的很好用,首先导入命令行解析模块importargparseimportsys然后创建对象parse=argparse.Argume
python读取和保存图片5种方法对比python中对象之间的赋值是按引用传递的,如果需要拷贝对象,需要用到标准库中的copy模块方法一:利用PIL中的Imag
Python3中我们利用内置模块json解码和编码JSON对象,JSON(JavaScriptObjectNotation)是指定RFC7159(废弃了RFC4