zion03 - 博客园

2025年10月7日

摘要：从两年前开始做公司现有产品的 AI 化转型尝试，到现在从零到一完成一款 AI native 新产品的研发，踩了不少的坑。记录一下到目前为止的一些想法。 1. 产品层面 1.1 先去融入已有的工作流，别想着上来就颠覆 Eating your own dog food -- is not easy 让公阅读全文

posted @ 2025-10-07 21:59 zion03 阅读(21) 评论(0) 推荐(0)

2025年9月3日

记录 safetensors 加密(tensorizer)

摘要：在前面的离线部署方案方案中，使用 tensorizer 库进行加密，并可以结合 vLLM 在推理加载模型时实现解密。可以针对模型权重进行初阶的保护（没法防止直接从硬件中 dump 出数据来）安装环境 pip install vllm[tensorizer] 加密脚本源码：tensorize_ 阅读全文

posted @ 2025-09-03 14:33 zion03 阅读(39) 评论(0) 推荐(0)

2025年9月2日

记录 LLM 量化(awq 算法)

摘要：为什么做量化前面做了基于 Qwen3:30b 训练的模型，全精度的权重接近 60GB，在一张 4090/5090 的卡上没办法正常运行，q4 量化后可以在单卡上进行推理量化技术选型推理加载时量化推理引擎在加载模型权重时，实时转换模型精度 quantization='awq' 存在问题：模型阅读全文

posted @ 2025-09-02 12:43 zion03 阅读(144) 评论(0) 推荐(0)

2025年8月19日

[Partially AI Generated Post] 用户环境部署 python + LLM 产品的代码与模型权重保护方案

摘要：最近要把产品部署到客户环境进行离线使用了，要把产品的知识产权保护考虑进来。先说产品技术栈： Web 前后端分离架构，Python 后端 + finetuned LLM 初步的实现方案：使用 pyarmor + pyinstaller 做 python 后端代码的混淆和二进制打包，达到保护后端 py 阅读全文

posted @ 2025-08-19 09:34 zion03 阅读(64) 评论(0) 推荐(0)

2025年6月6日

代码仓库索引调研--Cursor Repo Index 与基于 graph 的索引新方案

摘要：最近刷到一篇 paper，是关于代码定位（Code Localization）的，具体来说，是做“自然语言” -> “代码文件” 的映射。我正好在做基于 LLM 的代码生成功能，上个月把仿真脚本语言的 LLM 训练做完了，下一步想基于 RAG 技术提升代码生成的质量，正琢磨如何更高效地做代码索引和召阅读全文

posted @ 2025-06-06 17:17 zion03 阅读(386) 评论(0) 推荐(0)

2025年5月25日

增量预训练 (CPT, Continuous Pre-Training) llama-factory 训练配置

摘要：前一阵子 qwen3 模型出来了，正好公司新的 GPU 资源也申请下来，就基于新的基座模型重新训练一下，实现性能飞跃嘿嘿。 1. 路径依赖篇由于上一版的模型是基于 Qwen2.5-Coder:3b 训练的，服务器也只有 A100 80G * 2，所以在用 llamafactory 训练的时候没有考阅读全文

posted @ 2025-05-25 19:49 zion03 阅读(854) 评论(0) 推荐(0)

2025年4月9日

[AI Generated Post] LLM 代码能力的基准、主流 LLM 的评分和排名

摘要：注：本文由 Gemini Deep Research 生成，是我在调研后续训练的 base model 选型所用引言大型语言模型（LLM）在包括代码生成在内的多个领域展现出变革性的潜力，有望提高开发人员的生产力并自动化软件开发生命周期的各个方面。随着越来越多的 LLM 具备生成代码的能力，客观且阅读全文

posted @ 2025-04-09 16:47 zion03 阅读(1456) 评论(0) 推荐(0)

2025年3月25日

记录在应用 LLM 时需要注意的 chat-template 问题

摘要：碰到的问题场景一：在使用 VS Code 代码补全插件 Continue（https://www.continue.dev）的时候，配置了 CPT 后的 LLM，结果无法正常补全，chatbot 中输出的 markdown 格式也不稳定，有时候连基本的代码也会解析错误。解决方案：在 Cont 阅读全文

posted @ 2025-03-25 15:14 zion03 阅读(294) 评论(0) 推荐(0)

2025年2月27日

HF 格式模型导入 Ollama 进行推理

摘要：之前训好的模型，推理服务是用 vllm 跑的，不过 vllm 会长期占用显存，在团队内资源紧张的情况下，不能长期启动服务。不巧的是时不时会需要访问这个服务，手动维护就很麻烦。正好 Ollama 可以根据请求自动加载、释放模型，就打算把模型迁移到 Ollama 上进行推理。这里记录一下处理过程：先阅读全文

posted @ 2025-02-27 21:33 zion03 阅读(249) 评论(0) 推荐(0)

2025年2月10日

踩坑小记：LLM训练后的模型精度保存问题

摘要：在基于 Qwen2.5-coder 模型进行继续预训练（continual pre-trian）后，保存的模型权重，多了整整一倍（原始 Qwen2.5-coder 的 3b 模型是 5 个 GB，训练后保存的 safetensor 体积是 10 多个 GB）。刚训练完就发现这个问题了，由于用 vll 阅读全文

posted @ 2025-02-10 18:38 zion03 阅读(323) 评论(0) 推荐(0)

CD Yang

公告