解密“看什么”功能的对话式AI技术核心

“我该看什么?”

在一个充斥着快速增长的节目、横跨无数频道和应用软件的娱乐宇宙中,这可能是许多家庭中最常出现的问题之一。如果您也是那些难以跟上所有最新节目、并难以确定哪些节目值得一看的人,那么您并不孤单。

事实上,最近一家咨询公司的调查发现,超过一半的受访者认为很难跨多个服务访问内容,49%的人如果服务未能提供好的推荐会感到沮丧。观众们发现自己不断地浏览、再浏览。根据2020年的一项调查,智能电视用户平均需要12分钟才能选定一个节目——而对于一些观众来说,这可能长达半小时。

“顾客不得不花费大量时间寻找内容,而不是舒服地坐在沙发上直接观看他们真正喜欢的电视节目或电影,这有点令人震惊,”一位负责口语理解的技术项目经理说道。“我们想利用新技术帮助顾客解决这个问题。”

“我该看什么”体验

团队通过推出“我该看什么”(WSIW)体验来实现这一目标。这项于9月中旬发布的新体验,结合了某中心的语音AI和某机构的电视推荐技术,将某中心的语音助手转变为娱乐专家,通过对话式的顾客体验提供相关建议。

“我们构建WSIW是为了快速试验新的某中心语音助手技术,并在内容发现体验上突破极限,以解决顾客寻找有趣内容观看这一核心需求,”一位帮助将WSIW带给顾客的产品经理解释道。

当顾客询问“某中心语音助手,我该看什么?”或其变体时,WSIW会显示个性化的推荐。顾客随后可以使用语音指令(例如,“只要那些我能免费看的”)或使用遥控器在屏幕上选择筛选条件、观看预告片、查看附加信息(如类型、评分)以及开始播放来自定义推荐。

融合创新

该体验融合了某机构电视(拥有海量内容库、搜索和推荐功能)和驱动某中心语音助手的对话式AI两方面的创新。

“我们想要叠加这些专门围绕‘某中心语音助手对话’开发的新创新,”这位技术项目经理说。“我们为顾客提供了广泛自然的与某中心语音助手互动的方式,而不局限于单一的话语。”

自去年秋天预览WSIW并开始与顾客进行Beta测试以来,团队一直致力于完善顾客体验。

“我们利用Beta测试来密切观察顾客如何与WSIW互动,并验证我们关于什么对顾客有效的核心假设,”这位产品经理解释道。“我们验证的一个主要假设是,观众在与某中心语音助手互动时,很自然地倾向于使用自然语言,且输入内容多变。”

例如,为了定制推荐,团队发现顾客最初可能会说“我想要点搞笑的”,然后接着问“哪些是某机构视频上的?”或者简单地说“免费给我看的”。因此,团队致力于确保WSIW能够支持这类与某中心语音助手的交互。事实证明,这是一个顾客反响热烈的功能。

团队还根据早期反馈,引入了更渐进式的预告片自动播放介绍,并将一个关于如何使用WSIW功能的介绍视频替换为屏幕上的情境提示。

“另一个洞察是,顾客希望能够只查看他们已经有权观看的片名——而不是那些需要租赁或购买的——所以我们增加了一个永久性的‘免费给我看’筛选器。顾客经常强调这是亮点,”这位产品经理说。

为娱乐领域构建AI

“我该看什么”体验建立在现有某中心语音助手自然语言理解和自动语音识别能力之上。

“但是,将自然对话引入娱乐领域有其自身一系列独特的挑战,”这位技术项目经理解释道。也许一个节目(如《黑袍纠察队》或《苍穹浩瀚》)名字含义模糊,或者一部电影开始流行,而一两周前它还未出现在内容库中。优化该功能需要将围绕自然的、多轮对话的AI核心进展与快速变化的内容库相结合。

“我们正在确保这些自然对话足够智能,能够反映娱乐领域的最新动态,”他说。

团队还努力确保推荐结果融合了基于您个人偏好的个性化内容(例如您总是倾向于观看的英国侦探系列剧)以及您可能未曾看过的新内容。

他们通过定制某机构电视现有的推荐技术来实现这一点,将个性化推荐与热门片名混合,并对这些列表的子集进行随机化处理,以便观众每次打开电视时都能遇到新的想法。

创新的飞轮效应

基于深度学习的“某中心语音助手对话”极大地简化了开发由“我该看什么?”这一话语可能产生的数千种潜在对话轮次的过程。

“某中心语音助手对话”包含三个模型:实体识别(例如,识别汤姆·克鲁斯为演员)、动作预测(利用“电影搜索”API寻找电影)和参数填充(指明电影是那些由汤姆·克鲁斯主演的)。

“‘某中心语音助手对话’旨在减轻开发人员的负担,自动生成对话的多种变体。该团队最近增加了几项新功能,”一位应用科学家说。

这些新增功能包括:

  • 对话式问答:允许顾客就推荐的片名提出广泛的问题,例如哪些电影赢得了奥斯卡奖。
  • 上下文重置功能:允许用户“重新开始”,回到空白状态。
  • 视觉上下文理解:当观众说“播放左边的那个”时,增强某中心语音助手正确回应的能力,这里指的是屏幕上的内容,而非具体的电影片名。

“WSIW体验是首个搭载增强的屏幕上下文理解功能上线的体验,”这位应用科学家说。“它也是首个整合了上述所有功能以改善顾客体验的。”

跨团队协作

某中心语音助手和某机构电视的科学、工程和产品团队合作构建了这一新功能的不同组件。

“非常酷的是,我们利用了某中心语音助手和某机构电视许多不同部分的服务,”一位软件开发工程师说。“例如,我们运用了某机构电视在推荐领域积累的大量领域知识和能力。但在做这些的同时,我们也在努力提升标准:我们如何将从‘我该看什么’的使用中收集到的信息反馈回系统,从而形成一个持续改进的飞轮?”

这位工程师指出,与某中心语音助手团队的合作不仅实现了建议功能,还带来了新的情境内命令,用于某机构电视的播放和音量调节,而这些功能以前是不可用的。

“例如,在我们构建第一个Beta版本时,我们并没有真正的方法从某中心语音助手技能内部启动某机构电视上某个片名的播放,”他解释道。“因此,我们与某中心语音助手视频团队合作,扩展了现有功能,然后增加了对该特性的支持,以便我们可以在WSIW上使用它。”

展望未来

团队继续致力于让“我该看什么”变得更快、更智能。

一种可能性是让用户通过说类似“我是科幻迷”或“我不喜欢恐怖电影”这样的话来明确引导某中心语音助手。这种类型的互动代表了一个机会,让某中心语音助手能够适应顾客的互动偏好,有些顾客喜欢直接指导服务,而另一些则希望放松下来,接受推荐。

随着在这一体验上的合作继续,某中心语音助手和某机构电视都变得更加强大。这可能会产生更广泛的影响,特别是对于某中心语音助手技能开发生态系统。

“我们确实在努力提高标准,”这位工程师说,“而我们开发的能力最终可能会惠及第三方技能开发者。这些可能包括改进的长期记忆、更好的上下文重置和更好的视觉上下文理解。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2026-01-13 17:59  CodeShare  阅读(0)  评论(0)    收藏  举报