人工智能学习—华为AI Day7

一、图像搜索API

3.1、案例-盗图查询（版权图片侵权问题）

华为云与某大型图片库共同创新，实现客户收入飞速增长；

二、文字识别API服务

课程目标：

3.2.1 掌握文字识别API服务的主要功能

3.2.2 区分文字识别API服务的应用场景

3.2.3 了解文字识别API服务的实践案例

3.2.4 熟悉文字识别API服务的调用流程

概述：

文字识别（OCR技术）是指将图片或扫描件中的文字转换成可编辑的文本。

案例：

应用场景：

文字识别流程：

1、裁剪图片

2、OCR服务接口通过AI模型定位车票文字信息

3、结构话信息输出（文字部分形成定位框，把文字识别成文本）

　　通过key-value字典形式返回

应用场景：

三、语音交互API服务

课程目标：

掌握语音交互API服务的主要功能；

区分语音交互API服务的应用场景；

了解语音交互API服务的时间案例；

熟悉语音交互API服务的调用流程；

1、语音交互概述

主要模块：语音识别ASR和语音合成TTS。

语音交互服务（Speech Interaction Service,简称SIS）是一种人机交互方式，用户通过实时访问和调用API获取语音交互结果。

案例：用户通过语音识别功能，将口述音频或者语音文件识别成可编辑的文本，同时也支持通过语音合成功能将文本转换成语音等提升用户体验。

智能算法：语音交互引擎采用创新算法，融合传统算法和深度学习模型，识别准确率高。

自助调优：提供热刺功能，用户可自助传入热词，优化特定领域识别效果。

语音交互服务：

二、语音交互场景应用

外呼机器人架构和流程：

1、电话外呼

2、实时流语音/语音识别（语音识别ASR）

3、语义理解（智能外呼引擎）

4、回答生成

5、合成语音（语音合成TTS）

6、播放

7、挂断

呼入机器人架构和流程：

1、电话呼入

2、实时流语音/语音识别

3、语音理解/语音识别ASR

4、意图识别/问答或多轮反问填槽

5、智能机器人引擎

6、调用业务系统/回答生成

7、语音合成TTS

8、合成语音

9、播放

10、挂断

三、语音交互服务调用流程

人机交互：例如手机语音识别，涉及语音识别和语音合成功能；

电话外呼/呼入：涉及语音识别和语音合成；

有声阅读：涉及语音合成；

实践案例：华为云welink人机交互，涉及实时语音转写；

语音助手：平台语音助手，涉及语音转写和语音合成，如说话不清机器人无法识别，加入语音无法识别；

posted on 2025-07-30 08:58 gkhost 阅读(23) 评论(0) 收藏举报

刷新页面返回顶部

人工智能学习—华为AI Day7

一、图像搜索API

3.1、案例-盗图查询（版权图片侵权问题）

二、文字识别API服务

课程目标：

3.2.1 掌握文字识别API服务的主要功能

3.2.2 区分文字识别API服务的应用场景

3.2.3 了解文字识别API服务的实践案例

3.2.4 熟悉文字识别API服务的调用流程

概述：

案例：

应用场景：

文字识别流程：

应用场景：

三、语音交互API服务

课程目标：

1、语音交互概述

二、语音交互场景应用

外呼机器人架构和流程：

呼入机器人架构和流程：

三、语音交互服务调用流程

导航

公告

人工智能学习—华为AI Day7

一、图像搜索API

3.1、 案例-盗图查询（版权图片侵权问题）

二、文字识别API服务

课程目标：

3.2.1 掌握文字识别API服务的主要功能

3.2.2 区分文字识别API服务的应用场景

3.2.3 了解文字识别API服务的实践案例

3.2.4 熟悉文字识别API服务的调用流程

概述：

案例：

应用场景：

文字识别流程：

应用场景：

三、语音交互API服务

课程目标：

1、语音交互概述

二、语音交互场景应用

外呼机器人架构和流程：

呼入机器人架构和流程：

三、语音交互服务调用流程

导航

公告

3.1、案例-盗图查询（版权图片侵权问题）