我希望使用Postgres从文本中提取单词序列。
例如下面句子的整个单词三联图

"ed ut perspiciatis, unde omnis iste natus error sit voluptatem accusantium"

会是
"ed ut perspiciatis"
"ut perspiciatis unde"
"perspiciatis unde omnis"
...
我一直在和R一起做这件事,但我希望Postgres能够更有效地处理它。
我在这里看到过一个类似的问题n-grams from text in PostgreSQL
但是我不知道如何使用pg_trgm来提取单词序列

最佳答案

下面的函数假设一个单词由字母数字字符组成(任何其他字符都被删除),空格用作分隔符。

create or replace function word_ngrams(str text, n int)
returns setof text language plpgsql as $$
declare
    i int;
    arr text[];
begin
    arr := regexp_split_to_array(str, '[^[:alnum:]]+');
    for i in 1 .. cardinality(arr)- n+ 1 loop
        return next array_to_string(arr[i : i+n-1], ' ');
    end loop;
end $$;

查找所有三个单词短语:
select word_ngrams('ed ut perspiciatis, unde omnis iste natus error sit voluptatem accusantium', 3)

        word_ngrams
----------------------------
 ed ut perspiciatis
 ut perspiciatis unde
 perspiciatis unde omnis
 unde omnis iste
 omnis iste natus
 iste natus error
 natus error sit
 error sit voluptatem
 sit voluptatem accusantium
(9 rows)

查找所有六个单词短语:
select word_ngrams('ed ut perspiciatis, unde omnis iste natus error sit voluptatem accusantium', 6)

                 word_ngrams
---------------------------------------------
 ed ut perspiciatis unde omnis iste
 ut perspiciatis unde omnis iste natus
 perspiciatis unde omnis iste natus error
 unde omnis iste natus error sit
 omnis iste natus error sit voluptatem
 iste natus error sit voluptatem accusantium
(6 rows)

关于postgresql - 如何从Postgres中的文本中提取n元语法单词序列,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51570272/

10-12 21:56
查看更多