1.1 今日完成任务情况以及遇到的问题。
完成任务情况
- 杜世康:使用正则表达式对于弹幕文本中的数字,字母,符号,非法字符等过滤。
刘丹,李玉莹:实现主播管理功能
- 曹莹雯,尹楠: 调用NLPIR/ICTCLAS分词系统的Java API尝试对弹幕进行分词
王静雅 :管理员管理的实现
遇到的问题
- 简单的正则不能过滤色情,不文明用语等。如“卧槽”、“SB”、“草泥马”等。
1.2 明天任务安排
截至目前已爬取弹幕11万余条数据,接下来的重点是对于弹幕文本的分析及及结果可视化
- 杜世康:垃圾弹幕的过滤处理
- 刘丹:NLPIR/ICTCLAS分词系统对于弹幕文本的处理
- 李玉莹:NLPIR/ICTCLAS分词系统对于弹幕文本的处理
- 曹莹雯:NLPIR/ICTCLAS分词系统对于弹幕文本的处理
- 尹楠: NLPIR/ICTCLAS分词系统对于弹幕文本的处理
- 王静雅:NLPIR/ICTCLAS分词系统对于弹幕文本的处理,并撰写明日Alpha冲刺博文
1.3 成员贡献时间
弹幕文本内容的过滤 | 杜世康 | 20% | 4h |
实现主播管理功能 | 刘丹 | 15% | 2h |
实现主播管理功能 | 李玉莹 | 15% | 2h |
NLPIR/ICTCLAS分词系统进行分词 | 曹莹雯 | 15% | 2h |
NLPIR/ICTCLAS分词系统进行分词 | 尹楠 | 15% | 2h |
管理员管理的实现 | 王静雅 | 20% | 2h |