我想知道,在Postgres中,如何删除所有重复的记录,除了按列排序的记录。
假设我有下表:

 id                 | name |  region   |          created_at
--------------------+------+-----------+-------------------------------
                  1 | foo  | sydney    | 2018-05-24 15:40:32.593745+10
                  2 | foo  | melbourne | 2018-05-24 17:28:59.452225+10
                  3 | foo  | sydney    | 2018-05-29 22:17:02.927263+10
                  4 | foo  | sydney    | 2018-06-13 16:44:32.703174+10
                  5 | foo  | sydney    | 2018-06-13 16:45:01.324273+10
                  6 | foo  | sydney    | 2018-06-13 17:04:49.487767+10
                  7 | foo  | sydney    | 2018-06-13 17:05:13.592844+10

我想通过检查元组(name,region)来删除所有重复项,但保留foo列最大的元组。结果将是:
 id                 | name |  region   |          created_at
--------------------+------+-----------+-------------------------------
                  2 | foo  | melbourne | 2018-05-24 17:28:59.452225+10
                  7 | foo  | sydney    | 2018-06-13 17:05:13.592844+10

但我不知道从哪里开始。有什么想法吗?

最佳答案

使用带有ROW_NUMBERPARTITION BY的子查询筛选出具有重复区域的行,同时保留每个区域中的最新行。确保子查询使用AS关键字来防止Postgre语法错误:

SELECT *
FROM foo
WHERE id IN (
  SELECT a.id
  FROM (
    SELECT id, ROW_NUMBER() OVER (
        PARTITION BY region
        ORDER BY created_at DESC
    ) row_no
    FROM foo
  ) AS a
  WHERE row_no > 1
);

... 返回要删除的行。当您对删除行的结果感到满意时,将SELECT *替换为DELETE
SQLFiddle demo

关于sql - Postgres删除所有重复的记录,但通过排序删除一条,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/52827420/

10-12 12:35
查看更多