时间:2021-05-20
1. 识别缺失数据;
2. 检查导致数据缺失的原因;
3. 删除包含缺失值的实例或用合理的数值代替(插补)缺失值。
函数is.na()、is.nan()和is.infinite()可分别用来识别缺失值、不可能值和无穷值。每个返回结果都是
TRUE或FALSE
na表示缺失值
nan表示NOT A NUMBER
infinite表示+-Inf
一定要亲手试x = 0/0,以及x = 1/0
>x <- NA> is.na(x)[1] TRUE> is.nan(x)[1] FALSE> is.infinite(x) [1] FALSE函数complete.cases()可用来识别矩阵或数据框中没有缺失值的行
超级好用
#加载数据集>data(sleep,package = "VIM")#没有缺失值的行>sleep[complete.cases(sleep),]#列出有一个或多个缺失值的行>sleep[!complete.cases(sleep),]matrixplot()函数可生成展示每个实例数据的图形
#自己生成图形marginplot(sleep[c("Gest","Dream")],phc=c(20),col=c("darkgray","red","blue"))函数complete.cases()可以用来存储没有缺失值的数据框或者矩阵形式的实例(行):
#可以把mydata替换成sleep,延续上面的代码>newdata <- mydata[complete.cases(mydata),]同样的结果可以用na.omit函数获得:
#可以把mydata替换成sleep,延续上面的代码>newdata <- na.omit(mydata)两行代码表示的意思都是:mydata中所有包含缺失数据的行都被删除,然后结果才存储到newdata中,以后拟合就用新数据newdata.
处理含缺失值的数据集时,成对删除常作为行删除的备选方法使用。对于成对删除,观测只是当它含缺失数据的变量涉及某个特定分析时才会被删除:
>cor(sleep,use = "pairwise.complete.obs")函数mice()首先从一个包含缺失数据的数据框开始,然后返回一个包含多个(默认为5个)完整数据集的对象。
每个完整数据集都是通过对原始数据框中的缺失数据进行插补而生成的。
由于插补有随机的成分,因此每个完整数据集都略有不同。
然后,with()函数可依次对每个完整数据集应用统计模型(如线性模型或广义线性模型),最 后 ,pool()函数将这些单独的分析结果整合为一组结果。
最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性。
>library(mice)>data("sleep",package = "VIM")>imp <- mice(sleep,seed = 1234)#imp <- mice(sleep)>fit <- with(imp,lm(Dream~Span+Gest))fit>pooled <- pool(fit)>summary(pooled)imp>dataset2 <- complete(imp,action = 2)>cor(sleep,use = "pairwise.complete.obs")dataset2 is the newData
下图为完整缺失值处理图片:
补充:R语言读取数据空值
1. 文件中的内容有双引号,空值的时候是一对双引号
filename.txt 文件内容形如:
"ID" "ITEM"
"1080254842" "汉字"
"1080254842" "中文"
"1080594798" ""
"1080594798" ""
导入数据:
test <-read.table("filename.txt",header=TRUE)空值部分并不是NA,R语言不会把他识别为NA,改为下面的语句,即可解决。
test <-read.table("filename.txt",header=TRUE,na.strings = "")2. 文件中内容无双引号,空值即直接空白,形如下面:
ID ITEM
1080254842 汉字
1080254842 中文
1080594798
1080594798
导入数据:
test <-read.table("filename.txt",header=TRUE)会出现错误:Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :3行没有2元素
第三行第二元素没有。
修改为如下即可:
test <-read.table("filename.txt",header=TRUE,fill=TRUE)导入数据成功,但是,空值仍然不是NA,还需加上na.strings = "",
test <-read.table("filename.txt",header=TRUE, fill=TRUE, na.strings = "")成功导入。
其中:
header =TRUE,表示把第一行作为标题。
sep=",",因为csv文件的列是用逗号分开的,加上sep=",",帮助R通过识别逗号来分割列。如果没加,会出现原本多列数据导入后变为一列的情况。
na.strings = "":处理缺失值问题。
以上为个人经验,希望能给大家一个参考,也希望大家多多支持。如有错误或未考虑完全的地方,望不吝赐教。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
使用R语言填补缺失值数据处理过程中,往往会存在缺失值,对于缺失值的处理,目前各大统计书提出的方法有剔除,用均数填补,用众数填补,采用其他自变量进行回归,推算缺失
问题你需要执行矩阵和线性代数运算,比如矩阵乘法、寻找行列式、求解线性方程组等等。解决方案NumPy库有一个矩阵对象可以用来解决这个问题。矩阵类似于3.9小节中数
R语言基本的数据类型有数值型,逻辑型(TRUE,FALSE),文本(字符串)。支持缺失值,有专门的复数类型。常量是指直接写在程序中的值。数值型常量包括整型、单精
品牌自播矩阵搭建的三种方向和使用建议基于IP、人设的自播矩阵搭建品牌号与IP号各司其职,取长补短基于不同“产品、业务、解决方案”的自播矩阵搭建,可实现精准用户的
矩阵概述R语言的实质实质上是与matlab差不多的,都是以矩阵为基础的在R语言中,矩阵(matrix)是将数据按行和列组织数据的一种数据对象,相当于二维数组,可