我是数据科学的新手。这可能是一个愚蠢的问题,但只想了解意见并确认我是否可以很好地加以完善。
我有一个问题,要从数据库中获取最常见/最常见的5个句子。我知道我可以将所有数据(句子)收集到一个列表中并使用Counter库-我可以提取出现次数最多的5个句子,但是我很想知道是否有针对此类问题的任何算法(ML / DL / NLP)需求。所有的句子都是由用户给出的。我需要知道他的前5个(最常出现/最频繁)的句子(请不要说短语)!

例句-

“欢迎来到极客世界”

“创建此门户是为了提供精练的主题”

“如果您喜欢Geeks for Geeks并愿意做出贡献”

“为geeksforgeeks组织贡献力量,请参阅您的文章出现在“

“为geeksforgeeks org做贡献。请参阅您的文章出现在”(第二次出现)

“ The Geeks for Geeks主页,并为其他数千名Geeks提供帮助。”

注意:我在数据库中的所有句子都是不同的(从上下文出发,也没有重复)。这只是我的要求的一个例子。

提前致谢。

最佳答案

我建议您从sentence embeddings开始。简要地说,它返回给定句子的向量,并大致表示句子的含义。

假设您的数据库中有n个句子,并且发现每个句子的句子嵌入,所以现在您有n个向量。

一旦有了向量,就可以使用降维技术(例如t-sne)以二维或3维形式显示句子。在这种可视化中,具有相似含义的句子在理想情况下应该彼此接近。这可以帮助您查明最常用的句子,它们的含义也很接近。

我认为一个问题是,由于意义本质上是主观的,所以仍然很难为句子的意义划清界限。您可能必须在上述过程中添加一些启发式方法。

关于machine-learning - 检索前5个句子-算法(如果存在),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50987088/

10-11 22:48
查看更多