鸡尾酒会

鸡尾酒会效应（cocktail party effect）由英国认知科学家 Edward Colin Cherry 于 1953 年提出，指的是指人类的一种听力选择能力。在这种情况下，人可以把注意力集中在某一个声音刺激上，而忽略其他的背景声音。也就是说，人类可以集中在某一个人的谈话之中，而忽略背景中其他的对话或噪音。

鸡尾酒会效应的产生机制相当复杂，关于选择性注意和鸡尾酒会效应的成因，学术界提出过四个有影响力的理论模型：Broadbent 的过滤器模型、Treisman 的衰减模型、Deutsch & Deutsch 理论和 Kahneman 理论。然而，这四种理论模型都不能完美地解释“鸡尾酒会效应”出现的各种现象。

自动语音识别（ASR）的预处理，说话人识别，说话人变化检测，说话人分离，结束指向和手动转录等都需要解决“鸡尾酒会问题”，1985 年，有学者提出了盲信号分离（blindsignal separation），在不知道原始信号的信息和混合方法时，可以比较有效地恢复独立的原始信号。后辈学者通过不断改进，引入了神经网络的方法，正在逐步提高信号分离的效果。

在 AI Frontier 大会上，Nikko 博士介绍亚马逊使用的方法则是基于上下文联系的“Anchored Speech Detection”。这篇发表于 2016 年的论文中提到了两种检测目标语音的方法，首先需要用户先说出一个“anchor word”，例如唤醒词“Alexa”，作为我们学习说话者语音特征的参考。

第一种方法中，估计“anchor word”字段的平均值来标准化特征向量，从中突出低频部分相对于“anchor word”的差异。

另一种方法则是使用编码器-解码器网络，通过应用常规对数幅度因果平均值减法来归一化该网络的特征。

这两种方法实验结果表明：在具有常规归一化特征的基线前馈网络中，可以实现分类误差率大约 10％的相对降低。

Alexa 目前还是无法做到在同一个方向多人说话的情况下，准确的判断识别到底是谁在说话。特别是对于 Alexa 采用基于能量搜索唤醒的算法模式，非常容易受到周围环境的干扰，导致噪杂环境下的唤醒失败。　　

posted @ 2017-10-31 12:41 鹤顶一支草阅读(1152) 评论(0) 收藏举报

刷新页面返回顶部

鹤顶草

鸡尾酒会

公告