机器学习如何保障流媒体视频质量
流媒体视频可能因录制、编码、打包或传输过程引入缺陷,因此大多数订阅视频服务(例如某中心 Prime Video)会持续评估其流媒体内容的质量。手动内容审查(即人工观看测试)难以扩展,且其本身存在挑战,例如审查员对质量感知的差异。业内更常见的方法是使用数字信号处理来检测视频信号中通常与缺陷相关的异常。
三年前,Prime Video 的视频质量分析(VQA)团队开始使用机器学习来识别从设备(如游戏机、电视、机顶盒)捕获内容中的缺陷,以验证新应用程序版本或编码配置文件的离线更改。最近,该技术已被应用于实时监控数千个频道和直播活动的质量,以及大规模分析新目录内容等场景。VQA 团队训练计算机视觉模型来“观看”视频,并发现可能影响客户观看体验的问题,例如块状帧、意外黑帧和音频噪声。这使得能够处理数十万直播活动和目录项目规模的视频。
面临的一个有趣挑战是,由于 Prime Video 内容中音视频缺陷的流行率极低,导致训练数据中缺乏正样本。通过使用模拟原始内容中缺陷的数据集来应对这一挑战。在使用该数据集开发检测器后,通过在实际缺陷集上进行测试,验证检测器能否迁移到生产内容。
区块损坏检测
使用数字信号处理进行质量分析的缺点之一是,可能难以区分某些类型的内容与有缺陷的内容。例如,对于信号处理器,人群场景或高运动场景可能看起来像区块损坏场景,即受损传输导致帧内像素块的位移或导致像素块呈现相同颜色值。
为了检测区块损坏,使用了一种残差神经网络,该网络设计使得较高层能显式修正较低层遗漏的误差(残差误差)。将 ResNet18 网络的最后一层替换为 1x1 卷积。该层的输出是一个二维映射图,其中每个元素代表特定图像区域存在区块损坏的概率。这个二维映射图取决于输入图像的大小。在初始版本的此工具中,对映射图进行二值化,并计算损坏面积比 = 阳性区域面积 / 总面积。如果该比率超过某个阈值(经验证,0.07效果良好),则将该帧标记为存在区块损坏。在当前版本的工具中,将决策函数移入模型内部,使其与特征提取联合学习。
音频伪影检测
“音频伪影”是音频信号中不需要的声音,可能在录制过程或数据压缩过程中引入。后者是音频层面的“损坏块”等价物。有时,创作原因也会引入伪影。
为了检测视频中的音频伪影,使用了一个无参考模型,意味着在训练期间,它无法访问干净的音频作为比较标准。该模型基于预训练的音频神经网络,将一秒音频片段分类为:无缺陷、交流哼声、嘶嘶声、失真或咔嗒声。该模型在专有的模拟数据集上达到了 0.986 的平衡准确率。
音频/视频同步检测
另一个常见的质量问题是在音频与视频不同步时的 AV 同步或唇形同步缺陷。广播、接收和播放过程中的问题可能导致音频和视频失去同步。
为了检测唇形同步缺陷,基于牛津大学的 SyncNet 架构构建了一个名为 LipSync 的检测器。LipSync 流水线的输入是一个四秒的视频片段。它经过镜头检测模型(识别镜头边界)、人脸检测模型(识别每帧中的人脸)和人脸跟踪模型(识别连续帧中属于同一个人的脸部)。人脸跟踪模型的输出(称为人脸轨迹)和相关的音频随后输入到 SyncNet 模型,该模型在人脸轨迹上聚合信息,以决定该片段是同步、不同步还是无法确定(意味着未检测到人脸/人脸轨迹,或同步与不同步的预测数量相等)。
未来工作
这些只是工具库中的一小部分检测器。正在研究使用主动学习(算法选择信息量特别大的训练示例)来持续重新训练已部署的模型。为了生成合成数据集,正在研究 EditGan,这是一种允许更精确控制生成对抗网络输出的新方法。还使用自定义的云原生应用程序和 SageMaker 实现来扩展缺陷检测器的规模,以监控所有直播活动和视频频道。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号