随笔分类 - 深度学习
摘要:HCIE-AI笔试题 1.以下关于Google论文中标准transformer structure优点描述正确的有哪些选项?(多选) A.可以获取输入的全局依赖信息。 B.Transformer的Encoder和Decoder可以并行独立计算,训练效率高。 C.计算资源利用率高,特征学习能力强。 D
阅读全文
摘要:大模型和小模型的差异 比较项 小模型 大模型 算力需求 单卡训练 显卡集群训练,成本高 算法 参数在百万级别(M) 参数在十亿界别(B) 训练数据量 功能适用性 单一,只能处理单个场景下的业务 大模型训练时间估算 训练时间t = (8 * T * P) / (n * E * x) 其中: 训练时间t
阅读全文
摘要:Transformer架构 embedding 层的参数量 = 词汇表数量 * 嵌入维度 为什么要使用transformer算法架构 传统的RNN、CNN等算法架构存在的问题: 扩展能力差 泛化能力弱 Transformer的优势 自注意力机制:计算和使用序列中任意文本之间的依赖关系 位置编码:能够
阅读全文
摘要:递归神经网络(RNN)与长短期记忆网络(LSTM)概述 一、RNN的定义与优势 RNN本质是传统神经网络的改进版本,并非复杂算法。 传统神经网络局限:处理时间序列数据时,各步操作相互独立,无法考虑数据间的时序相关性。 RNN优势:通过隐藏层回路结构,前一时刻的中间结果会影响后一时刻的运算 ,能学习时
阅读全文

浙公网安备 33010602011771号