摘要: 在基于 Qwen2.5-coder 模型进行继续预训练(continual pre-trian)后,保存的模型权重,多了整整一倍(原始 Qwen2.5-coder 的 3b 模型是 5 个 GB,训练后保存的 safetensor 体积是 10 多个 GB)。刚训练完就发现这个问题了,由于用 vll 阅读全文
posted @ 2025-02-10 18:38 zion03 阅读(379) 评论(0) 推荐(0)
摘要: 最近打算基于 RAG 开源框架做一些小 demo,之前只用过个别框架,没有系统调研过,这里记录一下。 关注的一些点: 项目热度(GitHub Star) 社区活跃度(GitHub issues 数量) license(商用友好度) 技术栈(前后端) 项目名称 项目地址 license Star Is 阅读全文
posted @ 2024-12-30 16:16 zion03 阅读(352) 评论(0) 推荐(0)
摘要: 经常使用各种在线的、本地部署的 LLM API ,有个参数 temperature 基本都会被忽略,要么随手设置为 0.8(嗯,应该大部分人都是这么设置的吧...),要么直接用默认值。这个参数的基本功能也很明确: A lower LLM temperature value (close to 0) 阅读全文
posted @ 2024-12-19 14:57 zion03 阅读(1572) 评论(0) 推荐(0)
摘要: 由于要解决一些业务问题,需要将领域知识喂给大模型。之前只做过简单的 finetuning(在 GLM 的框架上跑了一些 lora,数据量也不大),但是现在要将整个细分工业领域的相关数据都收集起来训练,规模上比之前半手动构造的微调数据集要大了很多,调研了一圈,更适合在 pre-train 阶段去做训练 阅读全文
posted @ 2024-12-01 22:02 zion03 阅读(1425) 评论(0) 推荐(0)
摘要: 以 Qwen2.5-0.5B 模型为例,看一下具体都有哪些文件。 首先将 Hugging Face 上的模型拉下来 git clone https://huggingface.co/Qwen/Qwen2.5-0.5B,如果模型太大的话,可以执行 git clone https://huggingfa 阅读全文
posted @ 2024-11-23 22:58 zion03 阅读(290) 评论(0) 推荐(0)
摘要: 上篇: 从零开始的 LLM: nanoGPT 学习笔记(1/2) 尝试了完整的训练的过程,nanoGPT 仓库中还有复现 GPT2 的代码,可惜对计算资源要求太高(基于 OpenWebText 数据集,8 卡 A100,训练 4 天),不是个人电脑玩的转了,只能跳过这一步,尝试后面的 finetun 阅读全文
posted @ 2024-11-17 12:17 zion03 阅读(178) 评论(0) 推荐(0)
摘要: 项目地址:nanoGPT 作者是 OpenAI 的元老人物 Andrej Karpathy,以非常通俗易懂的方式将 LLM 的 pre-train 娓娓道来,YouTube 上也有对应的视频:Let's build GPT: from scratch, in code, spelled out. 其 阅读全文
posted @ 2024-11-16 23:23 zion03 阅读(738) 评论(0) 推荐(1)
摘要: 1. AI pair programming in terminal aider GitHub 可自由配置任意的 LLM 接口 功能: 接收需求: Add new features or test cases. Describe a bug. Paste in an error message or 阅读全文
posted @ 2024-11-13 22:27 zion03 阅读(351) 评论(0) 推荐(0)
摘要: CRUXEval (Code Reasoning, Understanding, and eXecution Evaluation) 是一个在 HumanEval 上进行改进的 benchmark。由 800 个 Python function 组成。 paper:CRUXEval: A Bench 阅读全文
posted @ 2024-11-13 18:45 zion03 阅读(393) 评论(0) 推荐(0)
摘要: SWE-bench 数据集从 12 个流行的 Python 仓库中,收集了 2294 组 [Issue, PR] 对。相比之前的各个 benchmark,要么数据泄露要么训练阶段作弊,已经没办法很好辨别顶尖模型的优劣,SWE-bench 更能反应出语言模型在真实世界的应用。 paper:SWE-be 阅读全文
posted @ 2024-11-12 15:20 zion03 阅读(1096) 评论(0) 推荐(0)