推荐理由:自然语言处理(nlp),小姜机器人(闲聊检索式chatbot),BERT句向量-相似度(Sentence Similarity),XLNET句向量-相似度(text xlnet embedding),文本分类(Text classification), 实体提取(ner,bert+bilstm+crf),数据增强(text augment, data enhance),同义句同义词生成,句子主干提取(mainpart),中文汉语短文本相似度,文本特征工程,keras-http-service调用 nlp_xiaojiang AugmentText
适用人群:自然语言
推荐指数:1.4k
项目名称:nlp_xiaojiang
自然语言处理nlp小姜机器人(闲聊) nlp_xiaojiang - 996station | 996技术站
=========================================================================
nlp_xiaojiang
AugmentText
ChatBot
ClassificationText
Ner
FeatureProject
run(可以在win10下,pycharm下运行)
- 1.创建tf-idf文件等(运行2需要先跑1):
python cut_td_idf.py
- 2.计算两个句子间的各种相似度,先计算一个预定义的,然后可输入自定义的(先跑1):
python sentence_sim_feature.py
- 3.chatbot_1跑起来(fuzzy检索-没)(独立):
python chatbot_fuzzy.py
- 4.chatbot_2跑起来(句向量检索-词)(独立):
python chatbot_sentence_vec_by_word.py
- 5.chatbot_3跑起来(句向量检索-字)(独立):
python chatbot_sentence_vec_by_char.py
- 6.数据增强(eda): python enhance_eda.py
- 7.数据增强(marko): python enhance_marko.py
- 8.数据增强(translate_account): python translate_tencent_secret.py
- 9.数据增强(translate_tools): python translate_translate.py
- 10.数据增强(translate_web): python translate_google.py
- 11.数据增强(augment_seq2seq): 先跑 python extract_char_webank.py生成数据, 再跑 python train_char_anti.py 然后跑 python predict_char_anti.py
- 12.特征计算(bert)(提取特征、计算相似度):
run extract_keras_bert_feature.py run tet_bert_keras_sim.py
Data
requestments.txt
参考/感谢
- eda_chinese:https://github.com/zhanlaoban/eda_nlp_for_Chinese
- 主谓宾提取器:https://github.com/hankcs/MainPartExtractor
- HMM生成句子:https://github.com/takeToDreamLand/SentenceGenerate_byMarkov
- 同义词等:https://github.com/fighting41love/funNLP/tree/master/data/
- 小牛翻译:小牛翻译开放平台 - 机器翻译找小牛
其他资料
- bert(keras):https://github.com/CyberZHG/keras-bert
- NLP数据增强汇总:https://github.com/quincyliang/nlp-data-augmentation
- 知乎NLP数据增强话题:自然语言处理中有哪些常用的数据增强的方式呢? - 知乎
- chatbot_seq2seq_seqGan(比较好用):https://github.com/qhduan/just_another_seq2seq
- 自己动手做聊天机器人教程: https://github.com/warmheartli/ChatBotCourse
开源地址
https://github.com/yongzhuo/nlp_xiaojiang
开源是一种精神,致敬屏幕背后的你!