随笔档案「2022年11月」 - ︶ㄣ演戲ㄣ

Listen、Attention、Spell模型

摘要：LAS是一个做语音识别的经典seq2seq模型，主要分为三个部分Listen、Attention、Spell Listen Listen部分就是一个encoder。输入声学特征向量，提取信息、消除噪声，输出向量。 encoder可以是RNN 也可以是CNN。比较常见的是先用CNN，再用RNN 还有阅读全文

posted @ 2022-11-28 13:56 ︶ㄣ演戲ㄣ阅读(38) 评论(0) 推荐(0)

翻译ESSumm: Extractive Speech Summarization from Untranscribed Meeting

摘要：ESSumm: Extractive Speech Summarization from Untranscribed Meeting 从非转录会议中提取语音摘要（非转录：原音频，没有转化为文本或者其他格式）论文地址 https://arxiv.org/abs/2209.06913 摘要在本文中，阅读全文

posted @ 2022-11-16 13:13 ︶ㄣ演戲ㄣ阅读(75) 评论(0) 推荐(0)

CodeBERT理解

摘要：1.动机大型的预训练模型，比如ELMo、GPT、Bert等提高了NLP任务的最新技术。这些预训练模型在NLP的成功驱动了多模态预训练模型，比如ViBERT、VideoBERT（他们从双模式数据，比如语言-图像对中进行自监督学习） CodeBERT，是一种用于编程语言（PL）和自然语言（NL）的bi 阅读全文

posted @ 2022-11-14 12:01 ︶ㄣ演戲ㄣ阅读(243) 评论(0) 推荐(0)

通俗理解深度学习中的知识

摘要：如何理解反向传播算法一文弄懂神经网络中的反向传播法——BackPropagation神经网络输出层为什么通常使用softmax?（为什么神经网络分类器要用交叉熵损失函数）关于语言模型的论文 BERT: Pre-training of Deep Bidirectional Transformers 阅读全文

posted @ 2022-11-10 09:59 ︶ㄣ演戲ㄣ阅读(8) 评论(0) 推荐(0)

11 2022 档案