合集-大模型学习记录

摘要:常见的transformer架构包括:encoder-decoder, encoder only, decoder only,区别如下: 模型类型 输入 输出 示例模型 应用场景 Encoder-only 文本(如句子) 表示(embedding) BERT, RoBERTa 分类、问答、文本检索等 阅读全文
posted @ 2025-06-05 14:59 ZCry 阅读(514) 评论(0) 推荐(0)
摘要:配合代码:大语言模型:从理论到实践,本文记录在跑模型代码时产生的一些疑问。 数据集 代码采用的时wikipedia和bookcorpus数据集,wikipedia是由Hugging Face提供的英文维基百科快照数据集,数据格式如下: { "id": "12345", "url": "https:/ 阅读全文
posted @ 2025-06-06 17:27 ZCry 阅读(215) 评论(0) 推荐(0)
摘要:数据处理 典型的数据处理流程如图所示,主要包括质量过滤、冗余去除、隐私消除、词元切分这几个步骤。 数据清洗 收集来的数据往往具有不一样的格式,数据清洗的目的是剔除明显的垃圾和无效内容,统一格式,包括: 格式清理:去除HTML标签、特殊符号、转义字符等。 空文本:删除空字符串或纯空格/标点。 编码错误 阅读全文
posted @ 2025-06-25 22:11 ZCry 阅读(391) 评论(0) 推荐(0)
摘要:写在前面,一定要看懂self attention的代码实现,注意矩阵乘是谁@谁,矩阵乘不可以变换位置!!! Attention的出现 由于翻译任务往往不是1 vs 1的翻译,因此输入与输出不等长,所以出现了encoder-decoder的形式: RNN具有短期记忆的问题,随着输入序列的增加,以前的输 阅读全文
posted @ 2025-05-31 18:28 ZCry 阅读(237) 评论(0) 推荐(0)