我有一个数据,其中有5个字段,所有字段都用逗号分隔。有两个主要字段infact字段1是yyyymmdd格式的日期,第二个字段包含msisdn 10位数字。该文件有大约1.2亿个数字,其中一些数字是重复的,是三倍,但在这种情况下日期是不同的。
我只需要唯一的msisdn,但日期应该是最新的。
最佳答案
首先,使用以下命令对文件进行排序:
sort filename.txt > filename.sort
其次,编写一个程序并逐行分析文件。在每一行找到msisdn并将该数字写到map
map.put(msisdn,lunenumber)
。在此步骤之后,再次对文件进行排序,并打印其行编号存在于map
中的行。关于linux - 仅从数据中grep最新的唯一MSISDN所需的命令,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31237249/