11 2022 档案

摘要:LAS是一个做语音识别的经典seq2seq模型,主要分为三个部分Listen、Attention、Spell Listen Listen部分就是一个encoder。 输入声学特征向量,提取信息、消除噪声,输出向量。 encoder可以是RNN 也可以是CNN。比较常见的是先用CNN,再用RNN 还有 阅读全文
posted @ 2022-11-28 13:56 ︶ㄣ演戲ㄣ 阅读(36) 评论(0) 推荐(0)
摘要:ESSumm: Extractive Speech Summarization from Untranscribed Meeting 从非转录会议中提取语音摘要(非转录:原音频,没有转化为文本或者其他格式) 论文地址 https://arxiv.org/abs/2209.06913 摘要 在本文中, 阅读全文
posted @ 2022-11-16 13:13 ︶ㄣ演戲ㄣ 阅读(59) 评论(0) 推荐(0)
摘要:1.动机 大型的预训练模型,比如ELMo、GPT、Bert等提高了NLP任务的最新技术。这些预训练模型在NLP的成功驱动了多模态预训练模型,比如ViBERT、VideoBERT(他们从双模式数据,比如语言-图像对中进行自监督学习) CodeBERT,是一种用于编程语言(PL)和自然语言(NL)的bi 阅读全文
posted @ 2022-11-14 12:01 ︶ㄣ演戲ㄣ 阅读(184) 评论(0) 推荐(0)
摘要:如何理解反向传播算法一文弄懂神经网络中的反向传播法——BackPropagation神经网络输出层为什么通常使用softmax?(为什么神经网络分类器要用交叉熵损失函数) 关于语言模型的论文 BERT: Pre-training of Deep Bidirectional Transformers 阅读全文
posted @ 2022-11-10 09:59 ︶ㄣ演戲ㄣ 阅读(6) 评论(0) 推荐(0)