时间:2021-05-19
一、数据去重
日常工作中,使用Hive或者Impala查询导出来可能会存在数据重复的现象,但又不想重新执行一遍查询(查询时间稍长,导出文件内容多),因此想到了使用Linux命令将文件的内容重复数据进行去除。
案例如下:
可以看到aaa.txx有3条重复数据
想去掉多余的数据,只保留一条
sort aaa.txt | uniq > bbb.txt
将aaa.txt文件中重复数据去掉,输出到bbb.txt
可以看到bbb.txt文件中只保留了一条数据
二、数据交、并、差
1)、交集(相当于user_2019 inner join user_2020 on user_2019.user_no=user_2020.user_no)
sort user_2019.txt user_2020.txt | uniq -d
2)、并集(相当于 user_2019.user_no union user_2020.user_no)
sort user_2019.txt user_2020.txt | uniq
3)、差集
user_2019.txt-user_2020.txt
sort user_2019.txt user_2020.txt user_2020.txt | uniq -u
user_2020.txt - user_2019.txt:
sort user_2020.txt user_2019.txt user_2019.txt | uniq -u
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
本文实例讲述了JS实现集合的交集、补集、差集、去重运算。分享给大家供大家参考,具体如下:ES5写法:///集合取交集Array.intersect=functi
本文实例讲述了JS实现的集合去重,交集,并集,差集功能。分享给大家供大家参考,具体如下:1.js实现数组的集合运算为了方便测试我们这里使用nodejs,代码如s
本文实例讲述了Python求两个文本文件以行为单位的交集、并集与差集的方法。分享给大家供大家参考。具体实现方法如下:s1=set(open('a.txt','r
本文实例讲述了JavaScript实现数组全排列、去重及求最大值算法。分享给大家供大家参考,具体如下:1、全排列(递归)functionpermutation(
本文实例讲述了PHP实现对数组简单求交集,差集,并集功能。分享给大家供大家参考,具体如下:'zero','1'=>'one','2'=>'two','3'=>'