我有一个文件,其中每个ID号都有多个条目。该文件有大约2,000个ID,每个ID有54,000个观察值。我需要将输出输入到算法中,该算法要求ID小于6个字符。如何仅用数字2000替换ID?文件中的ID如下所示:
2007I804567
2007I804567
2007I804567
2007I804568
2007I804568
2007I804568
2007I804569
2007I804569
2007I804569
需要它看起来像这样(想保留ID):
1 2007I804567
1 2007I804567
1 2007I804567
2 2007I804568
2 2007I804568
2 2007I804568
3 2007I804569
3 2007I804569
3 2007I804569
谢谢
最佳答案
$ cat file
2007I804567
2007I804567
2007I804567
2007I804568
2007I804568
2007I804568
2007I804569
2007I804569
2007I804569
$
$ awk '!seen[$0]++{++id} {print id, $0}' file
1 2007I804567
1 2007I804567
1 2007I804567
2 2007I804568
2 2007I804568
2 2007I804568
3 2007I804569
3 2007I804569
3 2007I804569