原理与案例 篇 代码/技术细节 与工具 篇 压缩、量化、加速、部署/训练加速 应用篇

 

 

数据

数据综述

PT数据清洗

COT数据如何生成

合成数据的质量控制

MGA构建高质量数据集及easy dataset用法

数据准备工具 EasyData-Set

data-juicer 系统化数据清洗

数据格式及任务设计 样例

### tool

data-juicer 系统化数据清洗


 

LLM 关键模块

### 位置编码

transformer-正弦位置编码

视觉位置编码

旋转位置编码 RoPE,支持长度扩展,外推性好

## 长文本扩展 

Yarn长文本扩展

Qwen2.5 上下文扩展

长上下文能力提升

其他模型的 长上下文扩展

长文本推理 实战经验

 

Prtrain

预训练基础流程及代码

增量预训练(Continue PreTraining)技巧 

预训练的文本被截断问题

灾难性遗忘

 

Post-Training

LLM微调 SFT指令数据生成 

Post-training 经验

SFT 深入分析

大模型微调 总结(都是精华)

## 微调原理

大模型 高效微调 原理篇

LoRa

QLoRa

微调细节 - 面经

 

行业LLM微调-思路流程方法

行业LLM[1]-训练流程

行业大模型 微调 经验总结

行业LLM微调 tricks

预训练数据和指令微调数据能混合一起微调模型吗

基于 PPO 的 RLHF 详解

PT-SFT-RL完整训练

训练 过程中 loss 分析

## 完整开源模型

MedicalGPT、EmoLLM心理

轩辕:度小满中文金融对话大模型

中文医疗大模型

 

LLM

大模型 总览

prompt 技巧 汇总

大模型产生幻觉的本质

LLM 复读机问题

为何大模型必须RLHF

## 评测与性能

LLM评估指标

模型评测工具-evalscope

Prometheus 性能监控平台

## 模型-数据-计算-规模

Scaling law

训练时间计算

为何大模型普遍训练1-2个epoch

大模型为什么设计成 7B,13B,33B,65B 等如此怪异的数字

## tokenizer

tokenizer 分词方法

词表 扩展

## 网络结构

LLM 架构、Attention矩阵,分析 LLM 采用 decode-only

所有norm汇总(bn-ln-rms-deep-prenorm-postnorm)

GLM and ChatGLM 架构解析 与 微调逻辑 

大模型结构优化-MQA/GQA 

kv cache 加速LLM推理

## 案例与产品

LLM微调 案例汇总

垂直大模型-收集

智能运维

数据治理

AI 高效办公案例

大模型+化学信息抽取

材料大模型

### 其他小知识点

大模型训练如何估计显卡利用率

 

视觉大模型

Vision Transformer(ViT)

swin transformer

DINOv3 + KNN 快速构建自监督图像分类模型

 

多模态大模型

VLM技术介绍

多模态大模型基本架构

多模态任务

多模态特征融合

CLIP-图文检索

BLIP

BLIP2

GLIP

变分自编码器VAE

VQ-VAE

VQ and RVQ

RVQ Encodec 语音压缩

LLaVA、LLaVA1.5、LLaVA Next

Llava-COT

LLaVA 实战 

LLaVA 改进

MiniCPM

Adapter 多模态连接器

MiniGPT-4

多模态大模型trick

### 上海AI Lab 

InternVL

InternVL3

### 图像细节增强

FG-CLIP:细粒度视觉和文本对齐

多模态-图像细节

### Qwen 系列

Qwen-vl

Qwen2-VL

Qwen2.5-VL

Qwen-VL系列

Qwen2.5-Omni 看听说写

GME-Qwen2-VL

 

dalle-文生图

dalle2-3

Kimi-VL

GLM-VL

快手Keye-VL1.5

### 推理

VLM-R1:DeepSeek R1迁移 Qwen2.5-VL

多模态Reasoning能力 训练

 

MOE

混合专家模型 MOE

MOE在视觉模型 Vision-MoE 中的应用

deepseek 进化史

DeepSeek-MLA框架

DeepSeek-V3

MTP多Token预测

DeepSeek设备级Token丢弃策略

DeepSeek-V3 FP8量化

Deepseek V3 预训练策略

PPO vs GRPO

GRPO 训练代码

大模型 RL 问题

GRPO优化-去掉KL散度

DeepSeek 蒸馏体系

DeepSeek-R1多阶段训练策略

SFT vs RL

融合 SFT RL 范式

deepseek-R1蒸馏推理能力SFT范式

模型蒸馏 对大模型时代 的危害

RL训练 实战案例

工具增强型Agent(tool、func call)提升LLM推理

自适应 SFT与RL 混合训练策略

 

VLA 与世界模型

VLA与世界模型

 

模型原理

## Attention

注意力机制【1】-入门篇

注意力机制【2】- CV中的注意力机制

注意力机制【3】-Self Attention

注意力机制【4】-多头注意力机制

注意力机制【5】Scaled Dot-Product Attention 和 mask attention

注意力机制【6】多种 attention 分析汇总 

Cross-attention

多头注意力机制中head_mask的作用

注意力机制 深度剖析 - 位置、适用任务 分析,不合适的注意力反而效果变差

## transformer 

transformer-网络结构

Bert -基本原理 

Bert - 应用指南 

GPT

gpt2 code

## LLM

transformer 架构优化

past_key_value 的作用

从零开始基于transformers库搭建Llama 

 

# ChatGLM

 

# LLAMA

LLaMA 3/2/1模型结构总览

Llama3-chinese lora+推理 

# Qwen 

Qwen2.5技术报告关键信息整理

Qwen3

 

Embedding

Embedding 模型一览 选择 及使用

embedding - bi encode AND cross encode

Embedding微调实战

embedding 之 sentence_transformers 原理、用法、微调

embedding 生成数据集,训练指标,基于 llama_index 微调

优质的 embedding 资源

BGE-智源 embedding 模型

 

## 多模态

多模态Embedding

Embedding工作原理 - 材料漂亮

 

相关知识

对比学习 及 SimCLR

 

### 提示学习

prompt learning

Prompt Learning 完成下游任务:基于bert的情感分类

提示学习实现异常检测 PromptAD

HuggingFace

Huggingface镜像站hf-mirror.com下载资源

Hugging Face 文档库指南

加载所有大模型代码

https://hf-mirror.com/docs/transformers/index

llama 模型申请

### datasets

datasets 

### Tokenizers

tokenizer原理、用法、训练自己的 tokenizer

词表预留 与 加词

添加special_token

tokenizer 的还原

tokenizer 中 attention_mask 在处理多个序列时的作用 

### transformers

transformers库-Models

transformers库-tokenizer分词器

Chat 数据模板-chat_template 构建LLM输入

transformers库-BERT中的Tokenizer

transformers-微调模型

transformers库-优化器

### Accelerate

Accelerate库加载和运行超大模型

transformers+accelerate设置分布式训练

### PEFT

PEFT库-基本用法与实战(llama2 量化并微调 ) 

PEFT 加载 adapters 

PEFT库-详细使用流程

### TRL

TRL :一款利用强化学习训练Transformer模型的框架 

### gradio

前端神器 - gradio 日常使用注意点

 

训推 代码/底层逻辑

### 细节代码实现-深入理解LLM

 

### 实战

LLM训练 基本流程-从0到1复现斯坦福羊驼 Alpaca

全流程微调代码,以 Qwen2 为例 (LoRA 参数高效微调和 SwanLab 可视化监控)

ChatGLM 微调 细节1-构建数据集

LoRA 实战 - 利用 lora 微调 CNN

Prompt Learning 完成下游任务:基于bert的情感分类 

 

分布式训练

### 方法与原理

分布式通信原语

分布式训练 基本概念

数据并行 DP、DDP

DDP, FSDP的数据分片、梯度同步和参数更新过程

流水线并行 PP

张量并行 TP

3D 并行

序列并行 SP

上下文并行 CP 

并行技术 小结

ray 分布式计算框架

### DeepSpeed

分布式训练 代码编写 的基本逻辑

deepspeed 安装、基本用法、异常记录 

deepspeed 参数传递 与 数据集生成

deepspeed 原理

ZeRo零冗余优化器 参数更新过程和通信量计算

deepspeed 多机多卡训练

deepspeed 集群训练LLM完整实战

### MindSpeed-LLM

MindSpeed-LLM

 

训推 工具/框架

大模型微调 - 工具型框架

### 魔搭swift

LLM推理微调框架 -魔搭ModelScope开源社区 swift 

swift - 自我认知微调最佳实践(微调、推理、AWQ量化、vllm推理)

swift - Agent 微调与部署 实战

swift-增量预训练

linux 异常记录 - swift分布式训练 环境

Swift-NPU-GRPO

### Megatron-SWIFT

Megatron-SWIFT

### LLAMA Factory 

LLM推理微调框架 LLama-Factory

LLaMA-Factory-微调实现function calling

LlamaFactory 实体识别及评估

llama factory 训练Qwen2-VL

llama factory - 微调任务类型/案例汇总

LLaMA Factory 微调:构建高质量数据集

 

大模型训练所需算力估计

大模型 相关知识(未整理)

### Unsloth

unsloth 微调LLM的革命工具

unsloth 蒸馏SFT推理能力

unsloth 进行 GRPO 训练

 

DataBase

neo4j 基础语法

向量数据库 及 LangChain 用法

Milvus

GPU/分布式-环境

GPU通信: NVLINK 和 PCIe

GPU型号

NCCL通信及其配置

多机互连检查

torchrun分布式训练

分布式训练问题

万卡集群

千卡分布式初始化timeout解决

LLM 分布式训练关键技术

GPU开发环境搭建


 

推理优化

LLM推理评测与优化

推理 优化 方法汇总

推理优化-连续批处理 continuous batching

推理优化 - Prefill-Decode分离式推理架构

推理优化 - Prefix Caching

推理优化 - Chunked prefills

推理优化- Sequence Parallel 

投机采样 Speculative Decoding

NVIDIA Dynamo 基于 H20 多机 PD 分离性能评测

极致化的批处理策略

 

### 实战

vllm部署总结

 

推理框架

推理框架选型:性能、易用性与成本的平衡

### vLLM

vLLM 基础用法与实战

vllm原理-PageAttention 和 share memory

vLLM+量化模型

vLLM 集群部署

vLLM 多Lora部署

vLLM在MAC上部署

### Ollama

LLM 本地化部署工具 - Ollama 

树莓派 ollama 边缘部署

### Sglang

sglang

SGLang的PD分离

 

FastAPI

Xinference

 

模型量化

大模型量化及低成本部署 

位->字节->数据类型-->模型参数 

量化 基本概念、原理、分类

NormalFloat 4-bit(NF4)量化

INT8 量化 和 bitsandbytes 安装使用,PTQ加载时量化

PTQ量化,GPTQ、GGUF、AWQ,保存模型时量化

GPTQ、AWQ区别

大模型量化【1】- 基础概念与方法

大模型量化【2】- ZeroQuant系列

大模型量化【5】-SmoothQuant 

大模型量化【6】- llama.cpp


 

训练优化

多轮对话 微调(ChatGLM) 

 

训练/推理加速

混合精度训练

Flash Attention

flash atten 安装

FlashAttentionV2

 

经验总结

A100集群正常 A800集群训练失败

 

项目实战

耶鲁大学:表格数据问答 模型训练

COT训练

知识图谱

知识图谱 基础

知识图谱 推理

知识图谱构建 框架

图谱可视化工具

GCN

图相似度


 

文档解析 与OCR

文本解析 工具汇总

OCR工具汇总

表格结构识别

RAG - 多模态问答、unstructured 文本解析(包括表格和图片OCR)

python-docx顺序解析word中的表格、图片、段落


 

RAG

RAG-基础知识与技术

ElasticSearch同义词管理

### 分块

基于语义的递归分块策略

迟分块策略 Late Chunking

### 检索

Contextual Embedding

### 多模态

多模态RAG

图片RAG实战及优化

### 复杂模式

智能客服

RAG 框架优化

R1 递归检索RAG范式

RAG vs Agentic RAG 终极

RAG-Challenge冠军方案:从文档解析、提示词到路由逻辑设计

RAG与推理的协同模式

### 高阶

reranker微调和评估

从RAG到DeepSearch

### RAG + 知识图谱

RAG+知识图谱(GraphRag)基础

实现方式

知识图谱+RAG = KAG

HiRAG

 

LangExtract知识图谱构建

案例收集

### 意图-槽位-路由-多轮 

意图识别与槽位填充

Joint BERT 意图和槽位联合识别

rag中的Router路由设计

RAG多轮对话中的 指代消歧,问题生成 

### 开源框架

RAG框架汇总

RAGFlow

RAGFlow可借鉴的做法

RAG - 材料很漂亮

 

KnowFlow

 

Deep (re)search

Deep Research 发展路径

### 训练

SEARCH-R1 自主搜索

search-o1

R1-Searcher两阶段强化学习

DeepResearcher

Deep Research

### 框架 

DeepSearch

AI-Researcher

DeepResearch开源方案

 

Agent

Agent 四种关键 设计模式

### 设计模式与多Agent

Agent 任务规划与执行模式

Multi Agent 架构设计 及 Llamaindex 实现

Agent 记忆技术

### function call

Function Calling 原理解析

function call 训练与推理

function call 训练进阶

### MCP

Model Context Protocol (MCP) 与 Function Calling

8种主流Agent框架与MCP的集成

 

Agent 用于软件架构设计 

Agent 启发 案例

RPA+Agent

 

Agent平台

### dify

Dify 安装

Dify 接入微信生态

Dify 集成 Ollama 和 Xinference

dify 应用笔记

dify实战教程

 

Text2SQL

Text-to-SQL理论精讲

Text2SQL 优化思路与案例

KeyInst: 通过关键指令来提升Text2SQL

Text2SQL优化

text2sql优化框架 Vanna

SQL血缘分析

 

SQL-R1用强化学习打破传统局限

### 工程优化

向量数据库助力Text2SQL处理高基数类别数据

Agent提升Text-to-SQL能力

langchain实现Text2SQL

RAGFlow+Dify+Text2SQL

### DB-GPT 产品

DB-gpt and Text2sql

AskTable 

PandasAI

ChatBI

Chat2DB


 

资源收集 

### 优质有用且可用的资源

雅意信息抽取大模型

### 其他资源

数字人和ASR资源 


 

 

实际业务

合同审查

 


 

 

 

 

 

参考资料: