python爬虫爬取网页表格数据

时间：2021-05-22

用python爬取网页表格数据，供大家参考，具体内容如下

from bs4 import BeautifulSoup import requests import csv import bs4 #检查url地址 def check_link(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: print('无法链接服务器！！！') #爬取资源 def get_contents(ulist,rurl): soup = BeautifulSoup(rurl,'lxml') trs = soup.find_all('tr') for tr in trs: ui = [] for td in tr: ui.append(td.string) ulist.append(ui) #保存资源 def save_contents(urlist): with open("D:/2016年中国企业500强排行榜.csv",'w') as f: writer = csv.writer(f) writer.writerow(['2016年中国企业500强排行榜']) for i in range(len(urlist)): writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) def main(): urli = [] url = "http:///news/463071.html" rs = check_link(url) get_contents(urli,rs) save_contents(urli) main()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

python爬虫爬取网页表格数据

相关文章

Python3爬虫ChromeDriver的安装实例

Python实现爬虫爬取NBA数据功能示例

使用Python编写爬虫的基本模块及框架使用指南

python爬取微博评论的实例讲解

Python爬虫设置代理IP的方法(爬虫技巧)