为了个人利益,我尝试根据他所学的信息和互联网搜索来定义一个模拟的AI,以提供比系统所知更多的详细信息。

我以一个 child 为例,当他出生时,他需要学习一切,他听了很多,然后提出了一些答案。他的妈妈/爸爸告诉他答案是否合适。

为了做到这一点,我想在hadoop系统中存储很多聊天对话,并解析所有这些对话,以确定哪个是给出频率最高的答案。这样,我想构建一个神经元数据库,其中包含具有确定答案的对话类型。

所以我的问题是,我可以合法地在互联网上的某个地方找到一个或多个任何格式的聊天/ session 数据库吗? (文件,数据库,csv等)

我拥有最大的机会获得的最多数据就是能够正确确定答案;)

感谢您的帮助和欢呼,
弗雷德里克

PS:英语不是我的母语

最佳答案

There is a collection of conversational datasets。它们大多数是从公开来源收集的。对于您来说,最有趣的可能是Santa Barbara语料库(尽管它是语音对话的记录)或电影对话数据集。

10-08 07:12
查看更多