我有一个数据,其中有5个字段,所有字段都用逗号分隔。有两个主要字段infact字段1是yyyymmdd格式的日期,第二个字段包含msisdn 10位数字。该文件有大约1.2亿个数字,其中一些数字是重复的,是三倍,但在这种情况下日期是不同的。
我只需要唯一的msisdn,但日期应该是最新的。

最佳答案

首先,使用以下命令对文件进行排序:

sort filename.txt > filename.sort

其次,编写一个程序并逐行分析文件。在每一行找到msisdn并将该数字写到mapmap.put(msisdn,lunenumber)。在此步骤之后,再次对文件进行排序,并打印其行编号存在于map中的行。

关于linux - 仅从数据中grep最新的唯一MSISDN所需的命令,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31237249/

10-13 05:52