会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
aibi1
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
22
23
24
25
26
27
28
29
30
···
81
下一页
2025年12月31日
自顶向下设计与高层抽象的重要性
摘要: 目录一、这一章节在讲什么问题二、核心观点总结(一句话版)三、关键思想拆解(读书笔记要点)1️⃣ 高层表达是为了“隐藏不必要的细节”2️⃣ 自顶向下设计为什么能减少 bug(四个层面)(1)结构清晰 → 需求和职责更准确(2)模块划分 + 独立性 → 避免系统级 bug(3)细节隐藏 → 更容易发现结
阅读全文
posted @ 2025-12-31 09:35 向着朝阳
阅读(9)
评论(0)
推荐(0)
2025年12月30日
缓存方案
摘要: 目录意图识别缓存 Key 设计方案一、整体架构二、缓存 Key 设计2.1 精确匹配缓存 Key(归一化后)2.2 向量相似度缓存 Key(语义匹配)方案 A: 使用 Redis Stack Vector Search(推荐)方案 B: 使用 Milvus(高并发场景)2.3 辅助缓存 Key2.3
阅读全文
posted @ 2025-12-30 10:57 向着朝阳
阅读(17)
评论(0)
推荐(0)
Rola微调的使用场景
摘要: 目录一、Transformer 系列模型二、生成式 / Diffusion 模型三、图像/视觉 Transformer 模型四、强化学习 / RLHF 模型五、总结 除了 大语言模型 和 Diffusion(扩散)模型,LoRA(Low-Rank Adaptation)微调在其他类型的深度学习模型里
阅读全文
posted @ 2025-12-30 09:53 向着朝阳
阅读(19)
评论(0)
推荐(0)
智能销售助手Rola微调数据集-测试集
摘要: 目录公开对话明确禁止的用法合成数据:三类数据 数据标注的特点一、一个总原则(必须记住)二、但三类数据的「标注深度」不同(这是关键)① 自有真实对话 + 标注(最深)② 公开对话(intent-only)(刻意变浅)③ 合成数据(规则生成)(结构完整,但来源不同)三、为什么不能三类数据都“同样标全”如
阅读全文
posted @ 2025-12-30 09:01 向着朝阳
阅读(84)
评论(0)
推荐(0)
售后绿线的方案 - 视觉模型YOLO CNN VIT
摘要: 目录YOLO结构绿线检测一、先给一个总原则(非常重要)二、标准工位 → 规则 + CV1️⃣ 场景特征2️⃣ 为什么不用深度学习?3️⃣ 为什么规则 + CV 是最优解三、非标拍摄 → YOLO + CNN1️⃣ 场景特征2️⃣ 为什么规则会失效?3️⃣ 为什么选 YOLO + CNN4️⃣ 为什么
阅读全文
posted @ 2025-12-30 07:06 向着朝阳
阅读(26)
评论(0)
推荐(0)
2025年12月29日
数据标准
摘要: 目录1. 标注时如何处理上下文方法一:直接在样本中包含历史对话方法二:将上下文信息提取为结构化特征2. 数据准备建议✅ 总结 完全正确。在电商客服这种多轮对话场景下,有些意图 不能单凭当前用户一句话就判断,必须结合历史聊天记录。比如: 用户:“那我要换 X9 的颜色。” 单独看这句话可能无法明确是
阅读全文
posted @ 2025-12-29 21:18 向着朝阳
阅读(29)
评论(0)
推荐(0)
LoRA微调关键参数
摘要: 目录一、什么叫“参数”,什么叫“超参数”1. 模型参数(Parameters)2. 超参数(Hyperparameters)2️⃣ 关键参数详解一、主要作用层与对应 LoRA 参数二、主要 LoRA 参数及设置建议三、调参策略(针对主要应用场景)四、注意事项target model选择一、选择策略1
阅读全文
posted @ 2025-12-29 21:13 向着朝阳
阅读(77)
评论(0)
推荐(0)
什么是过拟合
摘要: 目录一、直观理解二、为什么会过拟合三、过拟合的表现四、防止过拟合的方法五、和智能销售助手/LoRA微调的关系六、一句话总结 过拟合(Overfitting)是机器学习和深度学习中最常见的问题之一。简单理解,就是模型“学得太好了”,但学得的是训练数据的噪声和偶然性,而不是数据的真实规律,导致在新数据上
阅读全文
posted @ 2025-12-29 20:19 向着朝阳
阅读(108)
评论(0)
推荐(0)
LoRA 的 A、B 矩阵训练过程
摘要: 目录一、直接结论(精确定义)二、训练过程里 A、B 是如何“逐步变得有意义”的?1️⃣ 训练起点(step = 0)2️⃣ 初期训练(只学 B)3️⃣ 中后期训练(A、B 协同)三、为什么说这是“样本数据驱动”的?四、训练完成后,A、B 到底“存的是什么信息”?(不是记忆样本)五、和业务系统再对一次
阅读全文
posted @ 2025-12-29 17:31 向着朝阳
阅读(45)
评论(0)
推荐(0)
72B参数在Transformer架构上是什么意思
摘要: 目录一、先给结论(精确定义)二、参数量统计的构成拆解1. Embedding 层(词表 × 隐藏维度)2. Attention 层(真正的大头之一)3. FFN(Feed Forward Network,最大头)4. Bias、LayerNorm 等三、所以“点积”这个说法哪里容易误解?❌ 不准确的
阅读全文
posted @ 2025-12-29 16:42 向着朝阳
阅读(37)
评论(0)
推荐(0)
上一页
1
···
22
23
24
25
26
27
28
29
30
···
81
下一页
公告