摘要:
2025.10.14 1.字典的键值必须是不可变的,也就是说元祖,形如下面的初始化是可以的 dict1 = {(1, 2): 1} dict1 = {'a': 1} dict1 = {} 阅读全文
posted @ 2025-10-14 00:54
sellingpear
阅读(7)
评论(0)
推荐(0)
摘要:
2025.10.14 1. a = [['1','2'] for i in range(2)] b = [['1','2']]*2 a[0][1] = '3' b[0][0] = '4' print(a,b) 执行后输出 [['1', '3'], ['1', '2']] [['4', '2'], [ 阅读全文
posted @ 2025-10-14 00:53
sellingpear
阅读(4)
评论(0)
推荐(0)
摘要:
2025.10.14 位置编码外推失效是Transformer模型在长文本推理中出现上下文丢失的最常见架构限制,因为训练时使用的固定位置编码(如正弦编码)无法有效外推至超出训练长度的序列位置,导致位置信息丢失。 残差连接梯度消失主要影响训练而非推理时的上下文丢失; 前馈网络宽度不足影响模型容量但非长 阅读全文
posted @ 2025-10-14 00:48
sellingpear
阅读(12)
评论(0)
推荐(0)
摘要:
2025.10.14 在大型语言模型的工程实践中,提高泛化能力的最常见策略是使用更大的预训练数据集,因为更多数据可以帮助模型学习更泛化的表示,例如GPT-3和BERT等模型都强调大规模数据集的应用。 阅读全文
posted @ 2025-10-14 00:46
sellingpear
阅读(9)
评论(0)
推荐(0)
摘要:
Multi-Head Attention机制的主要设计目的是通过多个注意力头并行地捕捉输入序列中的不同子空间依赖关系,从而使模型能够同时关注输入的不同方面(如不同位置或语义子空间)。 Multi-Head Attention不降低embedding维度,反而可能增加计算开销(通过分割输入到多个头再拼 阅读全文
posted @ 2025-10-14 00:45
sellingpear
阅读(15)
评论(0)
推荐(0)
摘要:
2025.10.14 混淆矩阵可以显示模型的所有预测结果,包括真正例、假正例、真负例和假负例,从而帮助分析模型的性能 混淆矩阵不仅仅显示准确率,还提供更详细的分类结果 混淆矩阵与训练损失无关 混淆矩阵不涉及超参数设置 阅读全文
posted @ 2025-10-14 00:44
sellingpear
阅读(23)
评论(0)
推荐(0)
摘要:
2025.10.14 上下文学习(In-context Learning, ICL)的核心机制是在推理阶段不更新模型参数,利用提示中的少量示例引导模型生成适应新任务的输出。也就是'在不更新参数的情况下,利用提示中的示例让模型在内部条件化地模拟一个学习器'。 ICL不需要在训练或推理过程中更新参数; 阅读全文
posted @ 2025-10-14 00:42
sellingpear
阅读(79)
评论(0)
推荐(0)

浙公网安备 33010602011771号