大模型学习记录- - ZCry

大模型学习笔记（二）—— 大语言模型的结构与预训练流程

摘要：常见的transformer架构包括：encoder-decoder, encoder only, decoder only，区别如下：模型类型输入输出示例模型应用场景 Encoder-only 文本（如句子）表示（embedding） BERT, RoBERTa 分类、问答、文本检索等阅读全文

posted @ 2025-06-05 14:59 ZCry 阅读(514) 评论(0) 推荐(0)

大模型学习笔记（三）—— 预训练语言模型实践

摘要：配合代码：大语言模型：从理论到实践，本文记录在跑模型代码时产生的一些疑问。数据集代码采用的时wikipedia和bookcorpus数据集，wikipedia是由Hugging Face提供的英文维基百科快照数据集，数据格式如下： { "id": "12345", "url": "https:/ 阅读全文

posted @ 2025-06-06 17:27 ZCry 阅读(215) 评论(0) 推荐(0)

大模型学习笔记（四）—— 大语言模型预训练数据

摘要：数据处理典型的数据处理流程如图所示,主要包括质量过滤、冗余去除、隐私消除、词元切分这几个步骤。数据清洗收集来的数据往往具有不一样的格式，数据清洗的目的是剔除明显的垃圾和无效内容，统一格式，包括：格式清理：去除HTML标签、特殊符号、转义字符等。空文本：删除空字符串或纯空格/标点。编码错误阅读全文

posted @ 2025-06-25 22:11 ZCry 阅读(391) 评论(0) 推荐(0)

大模型学习笔记（一）—— transformer

摘要：写在前面，一定要看懂self attention的代码实现，注意矩阵乘是谁@谁，矩阵乘不可以变换位置！！！ Attention的出现由于翻译任务往往不是1 vs 1的翻译，因此输入与输出不等长，所以出现了encoder-decoder的形式： RNN具有短期记忆的问题，随着输入序列的增加，以前的输阅读全文

posted @ 2025-05-31 18:28 ZCry 阅读(237) 评论(0) 推荐(0)

zcry

合集-大模型学习记录

公告