摘要: 论文地址 开源代码 论文背景 现有的大语言模型主要通过增加参数来提升性能,忽略了数据中的一些噪声tokens。 主要难题:去除tokens可能会导致语义产生偏差,关键在于如何能准确识别无效tokens。 主要贡献 先在高质量语料库对模型进行训练,根据期望分布对tokens进行评分,过滤掉不相关以及不 阅读全文
posted @ 2025-03-27 20:31 嘉德罗斯大人 阅读(105) 评论(0) 推荐(0)
摘要: 神经元:神经网络的基本单位。一个神经元代表一个变量(特征)(指在输入层)。 神经网络学习的过程就是在调整神经元的权重(weight)以及偏差(bias)。 神经网络架构: 输入层(Input Layer):接收原始输入数据。 隐藏层(Hidden Layer):对输入数据进行处理,可以有多个隐藏层。 阅读全文
posted @ 2025-03-27 18:07 嘉德罗斯大人 阅读(44) 评论(0) 推荐(0)