使用 ChatterBot构建聊天机器人 - 维也纳的忧伤

ChatterBot是一个基于机器学习的聊天机器人引擎，构建在python上，主要特点是可以自可以从已有的对话中进行学习。

安装调试最简单的聊天机器人

安装

1	pip install chatterbot

基本使用

#!/usr/bin/python

# -*- coding: utf-8 -*-

from chatterbot import ChatBot

from chatterbot.trainers import ChatterBotCorpusTrainer

chatbot = ChatBot("myBot")

chatbot.set_trainer(ChatterBotCorpusTrainer)

# 使用英文语料库训练它

chatbot.train("chatterbot.corpus.english")

# 开始对话

while True:

print(chatbot.get_response(input(">")))

默认情况下, ChatterBot 使用JsonDatabaseAdapter作为storage adapter,使用ClosestMatchAdapter作为logic adapter, 使用VariableInputTypeAdapter作为input adapter。

storage adapter

ChatterBot创建之后，会建立一个类族适配器（adapter classes），在该适配器下该ChatterBot可以连接到不同类型的数据集。本文所采用的是JsonDatabaseAdapter，该Storage adapter是以json格式存储数据的。注意： JsonDatabaseAdapter 并不适用于海量数据，如果数据集过大该方法的性能将受到很大局限。

创建ChatterBot的时候可以在入参中指定JsonDatabaseAdapter，如下面的参数所示：

bot = ChatBot(

"Norman"

storage_adapter="chatterbot.adapters.storage.JsonDatabaseAdapter",

database="./database.json"

)

其中的database参数是用以指定所创建的chat bot所使用数据集的位置。上述的定义吗，我们可以看出该chat bot所使用的数据集是database.json，如果该database.json不存在的话，则会自动创建。注意：JsonDatabaseAdapter是ChatterBot的默认adapter，可以缺省。

输入和输出adapters

在创建ChatBot的时候可以指定输入和输出终端adapter。输入终端adapter用以读取终端的输入，输入终端adapter则是打印出chat bot的应答信息。

使用如下：

bot = ChatBot(

"Norman"

storage_adapter="chatterbot.adapters.storage.JsonDatabaseAdapter",

input_adapter="chatterbot.adapters.input.TerminalAdapter",

output_adapter="chatterbot.adapters.output.TerminalAdapter",

database="./database.json"

)

Logic adapters

在新建ChatBot的时候可以指定logic_adapters的值，该参数是一序列的logic adapter。在ChatBot中一个logic adapter就是一个类，这个类是用于接收输入的语句和反馈该输入的语句。

在logic adapter的使用数量上并不受限。下面的例子中可以看出，使用的是两个logic adapter。其中TimeLogicAdapter是返回当前时间，MathematicalEvaluation adapter则是用以计算问题的。

bot = ChatBot(

"Norman"

storage_adapter="chatterbot.adapters.storage.JsonDatabaseAdapter",

input_adapter="chatterbot.adapters.input.TerminalAdapter",

output_adapter="chatterbot.adapters.output.TerminalAdapter",

logic_adapters=[

"chatterbot.adapters.logic.MathematicalEvaluation",

"chatterbot.adapters.logic.TimeLogicAdapter"

database="./database.json"

)

创建自己的adapters参考默认使用的ClosestMatchAdapter、VariableInputTypeAdapter。如果需要语音输入，则可以调用百度语音接口。

让机器人支持中文

Chatterbot提供一个公用模块进行数据集的训练，目前该模块集成7种语种的训练，包括英语，葡萄牙语、西班牙语、法语、印尼语、意大利语和中文。训练集存放在\Lib\site-packages\chatterbot\corpus\data目录下：

使用中文语料库进行训练(注意，这里只支持Python 3，否则会报编码错误)，报错内容为：UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe4 in position 0: ordinal not in range(128)

#!/usr/bin/python

# -*- coding: utf-8 -*-

from chatterbot import ChatBot

from chatterbot.trainers import ChatterBotCorpusTrainer

chatbot = ChatBot("myBot")

chatbot.set_trainer(ChatterBotCorpusTrainer)

# 使用英文语料库训练它

chatbot.train("chatterbot.corpus.chinese")

# 开始对话

while True:

print(chatbot.get_response(input(">")))

ChatterBot也支持训练数据集的子集，如只想要训练英文问候语和对话，则只要将该两个子集导入进行训练即可：

chatterbot.train(

"chatterbot.corpus.english.greetings",

"chatterbot.corpus.english.conversations"

)

里面虽然包含各种语言，但是训练集的数据非常的小，如需更好的表现，需要自己添加更多的数据。

手动训练机器人

ChatterBot 内置training class，也可以根据自己的需要自行创建，通过调用train()函数之前先调用set_trainer() 来进行设置。使用方法如下：

#!/usr/bin/python

# -*- coding: utf-8 -*-

from chatterbot import ChatBot

from chatterbot.trainers import ListTrainer

my_bot = ChatBot("Training demo")

my_bot.set_trainer(ListTrainer)

my_bot.train([

"嗳，渡边君，真喜欢我?",

"那还用说?",

"那么，可依得我两件事?",

"三件也依得",

])

# test

print(my_bot.get_response("真喜欢我?"))

print(my_bot.get_response("可依得我两件事?"))

训练好的数据，默认存在./database.db（参考jsondatabase.py）,不是sqlite数据库，实际是jsondb，对json做了封装（参考jsondb/db.py）

只读模式

ChatterBot是会对每个输入的语句进行学习的。如果想要使得你已经训练过的bot不再继续学习输入的语句，可以通过以下方式进行设置，在初始化的时候将read_only设置为true。

1	chatbot = ChatBot("wwjtest", read_only=True) //否则bot会学习每个输入

最后一个问题，语料库可以从哪里来？

电视电影字幕
知识问答库

参考链接：

posted on 2019-05-29 09:14 维也纳的忧伤阅读(722) 评论(0) 收藏举报

刷新页面返回顶部