随笔档案「2022年12月」 - ︶ㄣ演戲ㄣ

whisper

摘要：Robust Speech Recognition via Large-Scale Weak Supervision 介绍大规模弱监督的训练。先前的方法都是通过大量的无监督学习训练（无监督的数据容易收集，所以通过大量无监督的学习可以训练出一个质量较好的encoder）。但是用的时候还需要找一些有监阅读全文

posted @ 2022-12-30 13:49 ︶ㄣ演戲ㄣ阅读(112) 评论(0) 推荐(0)

HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

摘要：摘要语言表示学习的自监督方法受到三个独特问题的挑战：每个输入话语中都有多个声音单元在预训练阶段，没有输入声音单元的词典（没有单独的字符或离散的单词输入）声音单元具有可变长度，没有明确的分段为了解决这些问题，提出了hidden-unit BERT（HuBERT）。 HuBERT使用聚类的方式为B 阅读全文

posted @ 2022-12-30 11:14 ︶ㄣ演戲ㄣ阅读(360) 评论(0) 推荐(0)

PodSumm&&PreSumm

摘要：PodSumm：播客音频摘要论文地址简介最近播客的流行给现有的内容发现和推荐系统带来了巨⼤的机遇和⼀系列独特的挑战。与听音乐不同，播客通常需要听众长时间积极关注。演讲者的演讲风格、幽默类型或制作质量等主观属性可能会影响听众的偏好，但很难从文本描述中辨别出来。在视频领域，电影预告片允许观众预览阅读全文

posted @ 2022-12-13 21:32 ︶ㄣ演戲ㄣ阅读(41) 评论(0) 推荐(0)

LAS、CTC、RNN-T、NT、MoChA

摘要：LAS LAS是一个做语音识别的经典seq2seq模型，主要分为三个部分Listen、Attention、Spell Listen Listen部分就是一个encoder。输入声学特征向量，提取信息、消除噪声，输出向量。 encoder可以是RNN 也可以是CNN。比较常见的是先用CNN，再用RN 阅读全文

posted @ 2022-12-02 18:22 ︶ㄣ演戲ㄣ阅读(235) 评论(0) 推荐(0)

12 2022 档案