ML - 随笔分类 - Antel

GRPO （Group Relative Policy Optimization ）

摘要：GRPO （Group Relative Policy Optimization ） GRPO https://arxiv.org/pdf/2402.03300 对于每个question q，GRPO从old policy \(\pi_{old}\) 采样一组输出 \({o_1, o_2 ...,o 阅读全文

posted @ 2025-02-17 19:23 Antel 阅读(1116) 评论(0) 推荐(0)

ChatGLM.cpp的量化处理

摘要：chatglm.cpp的一个主要特点就是以量化的形式对大模型进行优化，使其在CPU上能够进行高效推理。本文主要查看chatglm.cpp是如何对模型进行量化的 chatglm.cpp在使用时主要分成两步：使用convert.py将模型进行量化，得到ggml格式使用./build/bin/mai 阅读全文

posted @ 2023-11-08 22:00 Antel 阅读(525) 评论(0) 推荐(0)

ggml的量化处理

摘要：量化 ggml中的张量为ggml_tensor， ggml_tensor有几个值得注意的属性： enum ggml_op op 表示这个tensor是从哪个操作得到。 enum ggml_type type，为tensor的格式， ggml_type的定义如下： enum ggml_type { G 阅读全文

posted @ 2023-11-07 20:15 Antel 阅读(1015) 评论(3) 推荐(0)

Proximal Policy Optimization(PPO)算法原理介绍学习笔记

摘要：在了解PPO之前，首先需要了解Policy Gradient，PPO是建立在PG上的。 ### Policy Gradient 基本参考[【强化学习2】Policy Gradient - LGC的文章 - 知乎](https://zhuanlan.zhihu.com/p/66205274)进行整理。阅读全文

posted @ 2023-07-25 00:03 Antel 阅读(6308) 评论(0) 推荐(0)

ML/NLP中的一些术语/公式备忘录

摘要：目录AGIAIGCCCGERF (误差函数)FLOPSHadamard product (哈达玛积)Heaviside function (赫维赛德函数)KL散度vanilla不定期更新中 AGI Artificial General Intelligence 通用人工智能 AIGC Artific 阅读全文

posted @ 2022-10-27 20:36 Antel 阅读(245) 评论(0) 推荐(0)

Antel

公告

随笔分类 - ML

GRPO （Group Relative Policy Optimization ）

ChatGLM.cpp的量化处理

ggml的量化处理

Proximal Policy Optimization(PPO)算法原理介绍学习笔记

ML/NLP中的一些术语/公式备忘录