Orzjh - 博客园

2025年12月21日

摘要：后训练 Post-Training 主要有两种范式：SFT和RL Pre-training (预训练) 通过海量无监督数据的自监督学习（Next Token Prediction），让模型习得语言语法与通用知识。 SFT (监督微调)：实现指令对齐通过高质量问答对进行有监督学习，约束模型的输出空间阅读全文

posted @ 2025-12-21 01:31 Orzjh 阅读(72) 评论(0) 推荐(0)

大模型学习路线（二）：预训练 (Pre-training)

摘要：大模型学习路线（二）：预训练 (Pre-training) 说明：预训练是大模型“拥有知识”的关键阶段。秋招面试考察重点集中在数据工程、训练稳定性（混合精度）、Tokenizer 细节以及领域适配（CPT）策略。 🎯 学习目标掌握从数据清洗配比、Tokenizer 训练、混合精度训练技巧，到领域阅读全文

posted @ 2025-12-21 01:30 Orzjh 阅读(41) 评论(0) 推荐(0)

大模型学习路线（一）：Transformer架构篇

摘要： 🎯 学习目标彻底掌握 Transformer 的每一个组件细节，理解从 Standard Attention 到现代 LLM（如 Llama, Deepseek）架构的演进原因，并能手写核心算法代码。第一阶段：输入处理 (Input Representation) 1. 分词 (Tokeniz 阅读全文

posted @ 2025-12-21 01:28 Orzjh 阅读(43) 评论(0) 推荐(0)

2025年12月19日

MLLM 综述

摘要： MLLM 综述A Survey on Multimodal Large Language Modelshttps://hjfy.top/arxiv/2306.13549TL;DR本文全面综述了多模态大语言模型（MLLM）的最新进展，重点探讨其如何以大模型为核心处理多模态任务。文章系统性地梳理了架构设阅读全文

posted @ 2025-12-19 01:11 Orzjh 阅读(175) 评论(0) 推荐(0)

2025年12月3日

阿里NeurIPS Best Paper——Gated Attention介绍

摘要： Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free https://hjfy.top/arxiv/2505.06708 TL; DR 这篇论文提出了一种 Gated A 阅读全文

posted @ 2025-12-03 02:03 Orzjh 阅读(757) 评论(0) 推荐(0)

2025年12月2日

在拿下2025腾讯广告算法大赛之前我们可以做些什么——官方数据集和 Baseline 代码解读

摘要：数据集数据集概述 TencentGR_1k/是一个腾讯广告推荐系统的数据集，包含用户行为序列、物品特征、多模态嵌入等多种数据格式。该数据集主要用于推荐系统模型的训练和评估。目录结构 TencentGR_1k/ ├── seq.jsonl # 用户行为序列数据 ├── item_feat_dict 阅读全文

posted @ 2025-12-02 00:23 Orzjh 阅读(246) 评论(2) 推荐(1)

AI Infra 综述（二）

摘要： AI Infra 综述（二）5 计算优化 COMPUTATION OPTIMIZATIONS核心思想：现代AI芯片（如GPU）的算力非常强大，但要充分利用这些算力，就需要精巧的优化技术。本节主要介绍两大类方法：算子优化 (Operator Optimization)核心算子优化：针对模型里最耗费阅读全文

posted @ 2025-12-02 00:20 Orzjh 阅读(63) 评论(0) 推荐(0)

AI Infra 综述（一）

摘要： AI Infra 综述（一）Efficient Training of Large Language Models on Distributed Infrastructures: A Survey参考资料https://arxiv.org/abs/2407.20018https://github.c 阅读全文

posted @ 2025-12-02 00:18 Orzjh 阅读(99) 评论(0) 推荐(0)

2025年6月30日

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models（综述）

摘要： Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models（综述）[2503.16419v3.pdf][2503.16419_zh_CN.pdf]什么是 Overthinking？CoT, Chain of 阅读全文

posted @ 2025-06-30 15:34 Orzjh 阅读(67) 评论(0) 推荐(0)

2025年6月13日

LangChain 系列教程（七）：Callbacks

摘要： LangChain 系列教程（七）：Callbacks介绍Callbacks 是一个事件监听系统。它允许你在 LangChain 应用生命周期的特定节点（事件发生时）挂载自定义的函数，从而实现对内部状态的观察和干预。Callbacks 允许我们在LLM的各个阶段使用各种各样的“钩子”，从而达实现日志阅读全文

posted @ 2025-06-13 00:59 Orzjh 阅读(258) 评论(0) 推荐(0)

Orzjh's Blog

公告