人工智能学习—华为AI Day7
一、图像搜索API
3.1、 案例-盗图查询(版权图片侵权问题)
华为云与某大型图片库共同创新,实现客户收入飞速增长;
二、文字识别API服务
课程目标:
3.2.1 掌握文字识别API服务的主要功能
3.2.2 区分文字识别API服务的应用场景
3.2.3 了解文字识别API服务的实践案例
3.2.4 熟悉文字识别API服务的调用流程
概述:
文字识别(OCR技术)是指将图片或扫描件中的文字转换成可编辑的文本。
案例:

应用场景:

文字识别流程:

1、裁剪图片
2、OCR服务接口通过AI模型定位车票文字信息
3、结构话信息输出(文字部分形成定位框,把文字识别成文本)
通过key-value字典形式返回
应用场景:



三、语音交互API服务
课程目标:
掌握语音交互API服务的主要功能;
区分语音交互API服务的应用场景;
了解语音交互API服务的时间案例;
熟悉语音交互API服务的调用流程;
1、语音交互概述
主要模块:语音识别ASR和语音合成TTS。
语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。
案例:用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成语音等提升用户体验。
智能算法:语音交互引擎采用创新算法,融合传统算法和深度学习模型,识别准确率高。
自助调优:提供热刺功能,用户可自助传入热词,优化特定领域识别效果。
语音交互服务:

二、语音交互场景应用
外呼机器人架构和流程:
1、电话外呼
2、实时流语音/语音识别(语音识别ASR)
3、语义理解(智能外呼引擎)
4、回答生成
5、合成语音(语音合成TTS)
6、播放
7、挂断
呼入机器人架构和流程:
1、电话呼入
2、实时流语音/语音识别
3、语音理解/语音识别ASR
4、意图识别/问答或多轮反问填槽
5、智能机器人引擎
6、调用业务系统/回答生成
7、语音合成TTS
8、合成语音
9、播放
10、挂断
三、语音交互服务调用流程
人机交互:例如手机语音识别,涉及语音识别和语音合成功能;
电话外呼/呼入:涉及语音识别和语音合成;
有声阅读:涉及语音合成;
实践案例:华为云welink人机交互,涉及实时语音转写;
语音助手:平台语音助手,涉及语音转写和语音合成,如说话不清机器人无法识别,加入语音无法识别;

浙公网安备 33010602011771号