时间:2021-05-22
本文实例讲述了Python数据预处理之数据规范化。分享给大家供大家参考,具体如下:
数据规范化
为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化(归一化)处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。
数据规范化方法主要有:
- 最小-最大规范化
- 零-均值规范化
数据示例
代码实现
#-*- coding: utf-8 -*-#数据规范化import pandas as pdimport numpy as npdatafile = 'normalization_data.xls' #参数初始化data = pd.read_excel(datafile, header = None) #读取数据(data - data.min())/(data.max() - data.min()) #最小-最大规范化(data - data.mean())/data.std() #零-均值规范化从命令行可以看到下面的输出:
>>> (data-data.min())/(data.max()-data.min(
0 1 2 3
0 0.074380 0.937291 0.923520 1.000000
1 0.619835 0.000000 0.000000 0.850941
2 0.214876 0.119565 0.813322 0.000000
3 0.000000 1.000000 1.000000 0.563676
4 1.000000 0.942308 0.996711 0.804149
5 0.264463 0.838629 0.814967 0.909310
6 0.636364 0.846990 0.786184 0.929571
>>> (data-data.mean())/data.std()
0 1 2 3
0 -0.905383 0.635863 0.464531 0.798149
1 0.604678 -1.587675 -2.193167 0.369390
2 -0.516428 -1.304030 0.147406 -2.078279
3 -1.111301 0.784628 0.684625 -0.456906
4 1.657146 0.647765 0.675159 0.234796
5 -0.379150 0.401807 0.152139 0.537286
6 0.650438 0.421642 0.069308 0.595564
上述代码改为使用print语句打印,如下:
#-*- coding: utf-8 -*-#数据规范化import pandas as pdimport numpy as npdatafile = 'normalization_data.xls' #参数初始化data = pd.read_excel(datafile, header = None) #读取数据print((data - data.min())/(data.max() - data.min())) #最小-最大规范化print((data - data.mean())/data.std()) #零-均值规范化可输出如下打印结果:
0 1 2 3
0 0.074380 0.937291 0.923520 1.000000
1 0.619835 0.000000 0.000000 0.850941
2 0.214876 0.119565 0.813322 0.000000
3 0.000000 1.000000 1.000000 0.563676
4 1.000000 0.942308 0.996711 0.804149
5 0.264463 0.838629 0.814967 0.909310
6 0.636364 0.846990 0.786184 0.929571
0 1 2 3
0 -0.905383 0.635863 0.464531 0.798149
1 0.604678 -1.587675 -2.193167 0.369390
2 -0.516428 -1.304030 0.147406 -2.078279
3 -1.111301 0.784628 0.684625 -0.456906
4 1.657146 0.647765 0.675159 0.234796
5 -0.379150 0.401807 0.152139 0.537286
6 0.650438 0.421642 0.069308 0.595564
附:代码中使用到的normalization_data.xls点击此处本站下载。
更多关于Python相关内容感兴趣的读者可查看本站专题:《Python数学运算技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
在对模型训练时,为了让模型尽快收敛,一件常做的事情就是对数据进行预处理。这里通过使用sklearn.preprocess模块进行处理。一、标准化和归一化的区别归
在机器学习过程中,对数据的处理过程中,常常需要对数据进行归一化处理,下面介绍(0,1)标准化的方式,简单的说,其功能就是将预处理的数据的数值范围按一定关系“压缩
归一化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。R语言中的归
江苏远洋数据股份有限公司是一家具有现代化、规范化、专业化的金融服务外包企业。 最早成立于1990年,专业为银行提供账单数据处理外包服务;从98年开始,公司业务
反应迅速化、功能集成化、服务系列化、作业规范化、目标系统化、手段现代化、组织网络化、经营市场化、信息自动化。农特数据包首先你的淘宝得有数据有数据那就简单了下载一