摘要: 做传统工业软件的智能化已经有一段时间了,最开始只是从 LLM 生成 json 数据,给到软件进行解析,到后面的完整业务流程都由 agent 完成,人在环做中间结果确认,再到 agent 完成完整任务的交付,中间经历了一些曲折,也消除了一些困惑。记录一下当前对 agent 的思考。 一、Agent 开 阅读全文
posted @ 2026-01-26 11:47 zion03 阅读(6) 评论(0) 推荐(0)
摘要: Gunicorn + Caddy 蓝绿部署方案 阅读全文
posted @ 2026-01-26 10:34 zion03 阅读(1) 评论(0) 推荐(0)
摘要: 最近高强度使用了 Cursor,Claude Code,Gemini CLI,记录一下各个产品的使用体验,以及使用此类产品的一些技巧。 首先声明,我是在真实项目中使用的这些工具,两个项目分别为: 一个是我自己从零开始编写的一款 AI Native 产品,技术栈为 Python flask + Rea 阅读全文
posted @ 2025-12-05 16:06 zion03 阅读(46) 评论(0) 推荐(0)
摘要: 从两年前开始做公司现有产品的 AI 化转型尝试,到现在从零到一完成一款 AI native 新产品的研发,踩了不少的坑。记录一下到目前为止的一些想法。 1. 产品层面 1.1 先去融入已有的工作流,别想着上来就颠覆 Eating your own dog food -- is not easy 让公 阅读全文
posted @ 2025-10-07 21:59 zion03 阅读(31) 评论(0) 推荐(0)
摘要: 在前面的 离线部署方案 方案中,使用 tensorizer 库进行加密,并可以结合 vLLM 在推理加载模型时实现解密。可以针对模型权重进行初阶的保护(没法防止直接从硬件中 dump 出数据来) 安装环境 pip install vllm[tensorizer] 加密脚本 源码:tensorize_ 阅读全文
posted @ 2025-09-03 14:33 zion03 阅读(158) 评论(0) 推荐(0)
摘要: 为什么做量化 前面做了基于 Qwen3:30b 训练的模型,全精度的权重接近 60GB,在一张 4090/5090 的卡上没办法正常运行,q4 量化后可以在单卡上进行推理 量化技术选型 推理加载时量化 推理引擎在加载模型权重时,实时转换模型精度 quantization='awq' 存在问题: 模型 阅读全文
posted @ 2025-09-02 12:43 zion03 阅读(407) 评论(0) 推荐(0)
摘要: 最近要把产品部署到客户环境进行离线使用了,要把产品的知识产权保护考虑进来。先说产品技术栈: Web 前后端分离架构,Python 后端 + finetuned LLM 初步的实现方案: 使用 pyarmor + pyinstaller 做 python 后端代码的混淆和二进制打包,达到保护后端 py 阅读全文
posted @ 2025-08-19 09:34 zion03 阅读(122) 评论(0) 推荐(0)
摘要: 最近刷到一篇 paper,是关于代码定位(Code Localization)的,具体来说,是做“自然语言” -> “代码文件” 的映射。我正好在做基于 LLM 的代码生成功能,上个月把仿真脚本语言的 LLM 训练做完了,下一步想基于 RAG 技术提升代码生成的质量,正琢磨如何更高效地做代码索引和召 阅读全文
posted @ 2025-06-06 17:17 zion03 阅读(544) 评论(0) 推荐(0)
摘要: 前一阵子 qwen3 模型出来了,正好公司新的 GPU 资源也申请下来,就基于新的基座模型重新训练一下,实现性能飞跃嘿嘿。 1. 路径依赖篇 由于上一版的模型是基于 Qwen2.5-Coder:3b 训练的,服务器也只有 A100 80G * 2,所以在用 llamafactory 训练的时候没有考 阅读全文
posted @ 2025-05-25 19:49 zion03 阅读(1238) 评论(0) 推荐(0)
摘要: 注:本文由 Gemini Deep Research 生成,是我在调研后续训练的 base model 选型所用 引言 大型语言模型(LLM)在包括代码生成在内的多个领域展现出变革性的潜力,有望提高开发人员的生产力并自动化软件开发生命周期的各个方面。随着越来越多的 LLM 具备生成代码的能力,客观且 阅读全文
posted @ 2025-04-09 16:47 zion03 阅读(1853) 评论(0) 推荐(0)