会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
CD Yang
博客园
首页
新随笔
联系
管理
订阅
2026年2月11日
实习生:我用一个 LLM 模型实现了 RAG 的 embedding 和 generation 全部功能
摘要: 本文的来源,是我前几天给实习生一个学习的小任务,用 ollama 推理引擎在本地电脑实现一个轻量级 RAG 系统。 当我去检查成果时,发生了以下对话: “你用了什么 embedding 模型?” “mistral-nemo” “那 embedding 模型呢?” “mistral-nemo” “刚刚
阅读全文
posted @ 2026-02-11 18:16 zion03
阅读(3)
评论(0)
推荐(0)
2026年1月26日
Agent 开发实践:从 Workflow 到可控智能体架构
摘要: 做传统工业软件的智能化已经有一段时间了,最开始只是从 LLM 生成 json 数据,给到软件进行解析,到后面的完整业务流程都由 agent 完成,人在环做中间结果确认,再到 agent 完成完整任务的交付,中间经历了一些曲折,也消除了一些困惑。记录一下当前对 agent 的思考。 一、Agent 开
阅读全文
posted @ 2026-01-26 11:47 zion03
阅读(7)
评论(0)
推荐(0)
记录一个简单的零停机后端部署方案(Gunicorn + Caddy 蓝绿部署)
摘要: Gunicorn + Caddy 蓝绿部署方案
阅读全文
posted @ 2026-01-26 10:34 zion03
阅读(1)
评论(0)
推荐(0)
2025年12月5日
代码 Copilot 类产品深度使用感受
摘要: 最近高强度使用了 Cursor,Claude Code,Gemini CLI,记录一下各个产品的使用体验,以及使用此类产品的一些技巧。 首先声明,我是在真实项目中使用的这些工具,两个项目分别为: 一个是我自己从零开始编写的一款 AI Native 产品,技术栈为 Python flask + Rea
阅读全文
posted @ 2025-12-05 16:06 zion03
阅读(48)
评论(0)
推荐(0)
2025年10月7日
AI 产品研发的一些思考
摘要: 从两年前开始做公司现有产品的 AI 化转型尝试,到现在从零到一完成一款 AI native 新产品的研发,踩了不少的坑。记录一下到目前为止的一些想法。 1. 产品层面 1.1 先去融入已有的工作流,别想着上来就颠覆 Eating your own dog food -- is not easy 让公
阅读全文
posted @ 2025-10-07 21:59 zion03
阅读(31)
评论(0)
推荐(0)
2025年9月3日
记录 safetensors 加密(tensorizer)
摘要: 在前面的 离线部署方案 方案中,使用 tensorizer 库进行加密,并可以结合 vLLM 在推理加载模型时实现解密。可以针对模型权重进行初阶的保护(没法防止直接从硬件中 dump 出数据来) 安装环境 pip install vllm[tensorizer] 加密脚本 源码:tensorize_
阅读全文
posted @ 2025-09-03 14:33 zion03
阅读(158)
评论(0)
推荐(0)
2025年9月2日
记录 LLM 量化(awq 算法)
摘要: 为什么做量化 前面做了基于 Qwen3:30b 训练的模型,全精度的权重接近 60GB,在一张 4090/5090 的卡上没办法正常运行,q4 量化后可以在单卡上进行推理 量化技术选型 推理加载时量化 推理引擎在加载模型权重时,实时转换模型精度 quantization='awq' 存在问题: 模型
阅读全文
posted @ 2025-09-02 12:43 zion03
阅读(412)
评论(0)
推荐(0)
2025年8月19日
[Partially AI Generated Post] 用户环境部署 python + LLM 产品的代码与模型权重保护方案
摘要: 最近要把产品部署到客户环境进行离线使用了,要把产品的知识产权保护考虑进来。先说产品技术栈: Web 前后端分离架构,Python 后端 + finetuned LLM 初步的实现方案: 使用 pyarmor + pyinstaller 做 python 后端代码的混淆和二进制打包,达到保护后端 py
阅读全文
posted @ 2025-08-19 09:34 zion03
阅读(123)
评论(0)
推荐(0)
2025年6月6日
代码仓库索引调研--Cursor Repo Index 与基于 graph 的索引新方案
摘要: 最近刷到一篇 paper,是关于代码定位(Code Localization)的,具体来说,是做“自然语言” -> “代码文件” 的映射。我正好在做基于 LLM 的代码生成功能,上个月把仿真脚本语言的 LLM 训练做完了,下一步想基于 RAG 技术提升代码生成的质量,正琢磨如何更高效地做代码索引和召
阅读全文
posted @ 2025-06-06 17:17 zion03
阅读(549)
评论(0)
推荐(0)
2025年5月25日
增量预训练 (CPT, Continuous Pre-Training) llama-factory 训练配置
摘要: 前一阵子 qwen3 模型出来了,正好公司新的 GPU 资源也申请下来,就基于新的基座模型重新训练一下,实现性能飞跃嘿嘿。 1. 路径依赖篇 由于上一版的模型是基于 Qwen2.5-Coder:3b 训练的,服务器也只有 A100 80G * 2,所以在用 llamafactory 训练的时候没有考
阅读全文
posted @ 2025-05-25 19:49 zion03
阅读(1247)
评论(0)
推荐(0)
下一页
公告