2025 年 10月 21 日随笔档案 - bonelee

2025年10月21日

摘要：在大规模多语言神经机器翻译任务上，增加网络深度可以显着提高NMT 的翻译质量：48 层的模型比12 层的模型平均获得3.2 点的提高。DeepNet可以成功地将深度扩展到1,000 层，比基线提高4.4BLEU。值得注意的是，DeepNet只训练了4 个epoch，并且在计算预算更多的情况下，性能可阅读全文

posted @ 2025-10-21 10:52 bonelee 阅读(3) 评论(0) 推荐(0)

跟着GPT5学习预训练

摘要： GPT-1的模型主要包含两个阶段：预训练和微调。 1.预训练：在大量无标签数据上训练模型，以学习通用的表示和知识。==》具体如何做呢有伪代码嘛？ GPT-5 非常棒的问题 👍，你正从“如何用”走向“模型如何被训练出来”这个更深的层面。我们来看——GPT‑1 的预训练阶段到底是如何实现的，并给出阅读全文

posted @ 2025-10-21 10:23 bonelee 阅读(0) 评论(0) 推荐(0)

跟着GPT5学习bert分类中[CLS]标记 hidden state的作用

摘要： gpt1 核心功能是什么 GPT-5 GPT‑1（Generative Pre-trained Transformer 1）是 OpenAI 于 2018 年发布的第一个「生成式预训练 Transformer」模型。虽然与后来 GPT‑2、GPT‑3 甚至 GPT‑4 相比，它的规模很小（约 1. 阅读全文

posted @ 2025-10-21 10:08 bonelee 阅读(12) 评论(0) 推荐(0)

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

公告