人工智能学习—华为AI Day7

一、图像搜索API

3.1、 案例-盗图查询(版权图片侵权问题)

华为云与某大型图片库共同创新,实现客户收入飞速增长;

二、文字识别API服务

课程目标:

3.2.1 掌握文字识别API服务的主要功能

3.2.2 区分文字识别API服务的应用场景

3.2.3 了解文字识别API服务的实践案例

3.2.4 熟悉文字识别API服务的调用流程

概述:

文字识别(OCR技术)是指将图片或扫描件中的文字转换成可编辑的文本。

案例:

 应用场景:

文字识别流程:

1、裁剪图片

2、OCR服务接口通过AI模型定位车票文字信息

3、结构话信息输出(文字部分形成定位框,把文字识别成文本)

  通过key-value字典形式返回

应用场景:

 

 

 

三、语音交互API服务

课程目标:

掌握语音交互API服务的主要功能;

区分语音交互API服务的应用场景;

了解语音交互API服务的时间案例;

熟悉语音交互API服务的调用流程;

1、语音交互概述

主要模块:语音识别ASR和语音合成TTS。

语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。

案例:用户通过语音识别功能,将口述音频或者语音文件识别可编辑的文本,同时也支持通过语音合成功能将文本转换成语音等提升用户体验。

智能算法:语音交互引擎采用创新算法,融合传统算法和深度学习模型,识别准确率高。

自助调优:提供热刺功能,用户可自助传入热词,优化特定领域识别效果。

语音交互服务:

image

 二、语音交互场景应用

外呼机器人架构和流程:

1、电话外呼

2、实时流语音/语音识别(语音识别ASR)

3、语义理解(智能外呼引擎)

4、回答生成

5、合成语音(语音合成TTS)

6、播放

7、挂断

呼入机器人架构和流程:

1、电话呼入

2、实时流语音/语音识别

3、语音理解/语音识别ASR

4、意图识别/问答或多轮反问填槽

5、智能机器人引擎

6、调用业务系统/回答生成

7、语音合成TTS

8、合成语音

9、播放

10、挂断

三、语音交互服务调用流程

 人机交互:例如手机语音识别,涉及语音识别和语音合成功能;

电话外呼/呼入:涉及语音识别和语音合成;

有声阅读:涉及语音合成;

实践案例:华为云welink人机交互,涉及实时语音转写;

语音助手:平台语音助手,涉及语音转写和语音合成,如说话不清机器人无法识别,加入语音无法识别;

 

image

 

posted on 2025-07-30 08:58  gkhost  阅读(23)  评论(0)    收藏  举报

导航