R语言 实现两表连接且输出不重复数据

时间:2021-05-20

在做项目中遇到了如此问题,其中整理的结果表中没有会员ID信息,只有会员电话号码信息,且每一行为唯一一个会员。

另外一张member表中包含会员ID以及会员电话信息,但是这张表有重复的会员信息,也就是说一个会员在member表中多次出现,memeber表比整理的表要大很多。

说明:

1.在项目过程中,数据量较大,用到的是data.table包,需要用到SQL中的语句减少代码量,因此需要sqldf包。

2.以下例子中xx中的a1在yy中都有对应的值。

3.yy中的a1与b是一一对应的关系,不存在同一个a1值对应不同的b值。

4.此程序的目的是,用yy表与xx表匹配,也就是最终的结果应该是在xx的基础上增加b这一列的信息,数据集xx的行数不变。

如下所示:

<span style="font-size:14px;">> library(data.table)> library(sqldf)> xx <- data.table(a1=1:6,c=c(8,5,8,6,23,7),d=c('adf','af','sdf','utr','af','ruti'))</span><span style="font-family:SimSun;font-size:14px;">> xx a1 c d1: 1 8 adf2: 2 5 af3: 3 8 sdf4: 4 6 utr5: 5 23 af6: 6 7 ruti</span><span style="font-size:14px;">yy <- data.table(a1=c(2,3,1,4,5,5,7,6,8,9,2,2,3,6),b=c('b','c','a','d','e','e','g', 'f','h','i','b','b','c','f'))</span><span style="font-size:14px;">> yy a1 b 1: 2 b 2: 3 c 3: 1 a 4: 4 d 5: 5 e 6: 5 e 7: 7 g 8: 6 f 9: 8 h10: 9 i11: 2 b12: 2 b13: 3 c14: 6 f</span><span style="font-size:14px;">#按照a1连接所有信息包括进去 > dataxy<- merge(xx, yy, by = "a1", all.x = TRUE)> dataxy a1 c d b 1: 1 8 adf a 2: 2 5 af b 3: 2 5 af b 4: 2 5 af b 5: 3 8 sdf c 6: 3 8 sdf c 7: 4 6 utr d 8: 5 23 af e 9: 5 23 af e10: 6 7 ruti f11: 6 7 ruti f</span><span style="font-size:14px;">#删除重复的行*/ > sqldf("select DISTINCT a1,b,c,d from left1") a1 b c d1 1 a 8 adf2 2 b 5 af3 3 c 8 sdf4 4 d 6 utr5 5 e 23 af6 6 f 7 ruti</span>

补充:R语言筛选出不重复的行的几种方法

在做项目的过程中遇到筛选不重复的会员信息进行匹配,本次介绍五种筛选不重复行的数据:

五种方法如下:

>>> library(dplyr)>>> library(sqldf)

方法一:

>>> data1 <- data7_0 %>% group_by(CELLPHONE,MEMBERID) %>% filter(row_number() == 1) %>% ungroup()

方法二:

>>> data2 <- data7_0 %>% distinct(CELLPHONE,MEMBERID, .keep_all = TRUE)

方法三:

>>> data3 <- sqldf("select DISTINCT CELLPHONE,MEMBERID from data7_0")

方法四:

>>> data4 <- base::unique(data7_0)

方法五:

>>> data5 <- as.data.table(data7_0[!duplicated(data7_0$CELLPHONE), ])

以上为个人经验,希望能给大家一个参考,也希望大家多多支持。如有错误或未考虑完全的地方,望不吝赐教。

声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。

相关文章