deep QA 基于生成的chatbot系统

数据集默认存储在项目中的data文件夹中，

clone项目的的时候，Cornell Movie Dialog 是一起下载

其他的数据集：OpenSubtitles，Supreme Court Conversation Data，Ubuntu Dialogue Corpus 需要额外下载，使用时通过参数--corpus **指定

自定义的数据集，可根据既定的模式使用 https://github.com/Conchylicultor/DeepQA/tree/master/data/lightweight ，使用时通过参数--corpus lightweight --datasetTag <name>指定

将tokens = nltk.word_tokenize(sentencesToken[i]) 换成tokens=list(jieba.cut(sentencesToken[i]))

直接运行main函数

读取数据： textdata.py将文本按照出现的次序转换成数字编码，同时生成字典

处理好的数据存储在self.trainingSample中，

字典：

构建模型：

主要的逻辑实现在model.py中，通过TensorFlow自带embedding_rnn_seq2seq函数实现

构建完成后开始训练

通过参数modelTag指定model，test指定交互方式

decoder ouptut 输出单句最大词数*1*数据集单词数的3维向量，每个数值表示所对应单词的概率，取最大的作为答案，即可得到若干个单词作为答案

posted @ 2017-08-25 16:00 梳下鱼阅读(2266) 评论(0) 编辑收藏举报

刷新页面返回顶部

梳下鱼