时间:2021-05-22
寒假里学习了一下Python爬虫,使用最简单的方法扒取需要的天气数据,对,没听错,最简单的方法。甚至没有一个函数封装。。
网址:http://tianqi.2345.com/wea_history/53892.htm
火狐中右键查看网页源代码,没有发现天气数据,因此推断网页采用的json格式数据。
右击->查看元素->网络->JS,找到了位置
用Python爬虫下载为json格式数据存储下来,代码如下:
因为是刚学,学一点就动手实践了一下,还没有学到json的转换,直接使用的正则匹配,提取json中的数据,直接打印
提取转换json文件中的数据Python代码:
#-*- coding:utf-8 -*- import json import re import time Year = [2014] Month = [1] for y in Year: for m in Month: """ 2016年2月15日终于改成功。 是因为正则匹配后的编码问题,导致输出时无法显示。 在每个正则匹配的元组后添加 .decode('gbk').encode('utf-8'),成功输出 """ content = fRead.read() pattern = re.compile('{ymd:\'(.*?)\',bWendu:\'(.*?)\',yWendu:\'(.*?)\',tianqi:\'(.*?)\',fengxiang:\'(.*?)\',fengli:\'(.*?)\'},',re.S) items = re.findall(pattern,content) for item in items: print item[0].decode('gbk').encode('utf-8'),","+item[1].decode('gbk').encode('utf-8'),","+item[2].decode('gbk').encode('utf-8'),","+item[3].decode('gbk').encode('utf-8'),","+item[4].decode('gbk').encode('utf-8'),","+item[5].decode('gbk').encode('utf-8') time.sleep(0.1) fRead.close()使用Sublime Text 3运行
使用正则处理的一大问题就是,格式不整齐,总会漏掉一些数据。可能是由于匹配的速度过快导致部分数据缺失,但是通过time.sleep() 睡眠依旧不能解决问题。
由此可以看出正则匹配时的缺陷,待以后使用Python中专门用于处理json数据的包以后,再重新试一下
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
前言此次的目标是爬取指定城市的天气预报信息,然后再用Python发送邮件到指定的邮箱。下面话不多说了,来一起看看详细的实现过程吧一、爬取天气预报1、首先是爬取天
怎么用微信查询天气微信查天气预报指南怎么用微信查询天气微信查天气预报指南怎么用微信查询天气微信查天气预报指南怎么用微信查询天气微信查天气预报指南怎么用微信查询天
本文实例讲述了Python爬取国外天气预报网站的方法。分享给大家供大家参考。具体如下:crawl_weather.py如下:#encoding=utf-8imp
1、Minesage,,除了提供10天的天气预报资讯,且没有广告外,还有星座、万年历时尚等资讯信息; 2、中央天气预报,能够提供准确、全面的天气预报,包括
天气预报查询接口API,在这里我使用的是国家气象局天气预报接口使用较多的还有:新浪天气预报接口、百度天气预报接口、google天气接口、Yahoo天气接口等等。