今天早上,我一直在尝试在康奈尔电影-对话语料库数据集上训练一个聊天机器人,但是我在清理文本数据以供输入到我的算法时遇到了问题。
这是文本文件的片段


  


L1045 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ They do not!
L1044 +++$+++ u2 +++$+++ m0 +++$+++ CAMERON +++$+++ They do to!
L985 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ I hope so.
L984 +++$+++ u2 +++$+++ m0 +++$+++ CAMERON +++$+++ She okay?
L925 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ Let's go.


L924 +++ $ +++ u2 +++ $ +++ m0 +++ $ +++ CAMERON +++ $ +++哇
我只对每个句子最后部分的对话感兴趣。
如何清理此文件并将其制作为CSV文件?

数据集链接
http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

最佳答案

以字符串形式遍历所有行。

假设您有:


  str =“ +++ $ +++ u0 +++ $ +++ m0 +++ $ +++ BIANCA +++ $ +++他们没有!”


而您想将其表示为“他们不!”

喜欢:


  str.split(“ +++ $ +++”)[-1]


这将为您提供所需的输出。将欲望输出为字符串后,将其逐行写入.csv文件中。

希望这可以帮助。

08-20 01:28