会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
144
下一页
2025年10月7日
打造自主学习的AI Agent:强化学习+LangGraph代码示例
摘要: 在充满不确定性的现实世界里,AI的价值不在于预设规则,而在于持续学习和适应 AI Agent这个概念最近被炒得很热,从管理日程的语音助手到仓库里跑来跑去的机器人,大家都在谈论Agent的"自主性"。但是真正让Agent变得intelligent的核心技术,其实是强化学习(Reinforcement
阅读全文
posted @ 2025-10-07 21:17 deephub
阅读(29)
评论(0)
推荐(0)
2025年10月6日
向量存储vs知识图谱:LLM记忆系统技术选型
摘要: LLM本质上是无状态的,如果你了解HTTP协议就很好理解这个概念,但是如果你没接触过这,那么可以理解成它们没有短期记忆能力,每次和LLM交互,都得把之前的对话重新喂给它。 短期记忆或者说状态管理其实很好处理,拿几组历史问答塞进prompt就行了。但是如果是长期记忆呢? 要让LLM准确提取历史信息、理
阅读全文
posted @ 2025-10-06 21:17 deephub
阅读(15)
评论(0)
推荐(0)
2025年10月5日
NumPy广播:12个技巧替代循环,让数组计算快40倍
摘要: 写Python数据处理代码时反复用for循环?这其实是在给程序性能交"税"。NumPy的广播(broadcasting)机制能让你摆脱这种困境——代码量更少,执行更快,关键是思维方式从"逐个迭代"转向"整体形状操作"。掌握这些模式后,你的CPU负载会明显下降。 https://avoid.overf
阅读全文
posted @ 2025-10-05 21:14 deephub
阅读(7)
评论(0)
推荐(0)
2025年10月4日
Google开源Tunix:JAX生态的LLM微调方案来了
摘要: AX生态这两年在LLM训练这块追赶得挺快。PyTorch虽然还是主流但JAX在并行计算、TPU加速和API组合性上确实有些独特的优势。Google今天放出了Tunix这个库,专门做LLM的后训练——微调、强化学习、知识蒸馏这些都能搞。 Tunix是什么 这是个构建在JAX之上的后训练库,和Flax
阅读全文
posted @ 2025-10-04 20:43 deephub
阅读(23)
评论(0)
推荐(0)
2025年10月3日
从DQN到Double DQN:分离动作选择与价值评估,解决强化学习中的Q值过估计问题
摘要: 2015年DQN在Atari游戏上取得突破性进展,从此以后强化学习终于能处理复杂环境了,但没多久研究者就注意到一些奇怪的现象: Q值会莫名其妙地增长到很大,智能体变得异常自信,坚信某些动作价值极高。实际跑起来却发现这些"黄金动作"根本靠不住,部分游戏的表现甚至开始崩盘。 问题出在哪?答案是DQN更新
阅读全文
posted @ 2025-10-03 21:50 deephub
阅读(7)
评论(0)
推荐(0)
2025年10月2日
PINN训练新思路:把初始条件和边界约束嵌入网络架构,解决多目标优化难题
摘要: PINNs出了名的难训练。主要原因之一就是这个多目标优化问题。优化器很容易找到投机取巧的路径——比如拼命降低微分方程残差,但完全不管初始条件和边界约束。只要给初始条件和边界损失配的权重够低,它们增加的那点损失完全能被残差损失的大幅下降抵消掉。调整权重也许能暂时缓解这个问题,但谁也不能保证最优权重在整
阅读全文
posted @ 2025-10-02 21:39 deephub
阅读(24)
评论(0)
推荐(0)
2025年9月30日
Min-p采样:通过动态调整截断阈值让大模型文本生成兼顾创造力与逻辑性
摘要: 大语言模型的工作原理说起来很直接:根据输入内容和已生成的文本,预测下一个最合适的词(token)。输入先转换成 token,再变成向量表示,最后在输出层重新转回 token。 真正的挑战在于如何从候选词中做出选择。这个过程本质上是统计和概率性的,叫做"采样"。每个解码步骤模型都要从整个词汇表的概率分
阅读全文
posted @ 2025-09-30 21:04 deephub
阅读(17)
评论(0)
推荐(0)
2025年9月29日
从零构建能自我优化的AI Agent:Reflection和Reflexion机制对比详解与实现
摘要: AI能否像人类一样从错误中学习?反思型Agent系统不仅能生成回答,还会主动审视自己的输出,找出问题并持续改进。 反思策略本质上就是让LLM对自己的行为进行自我批评。有时反思器还会调用外部工具或检索系统来提升批评的准确性。这样一来系统输出的就不再是一次性的回答,而是经过多轮生成-审阅循环优化后的结果
阅读全文
posted @ 2025-09-29 20:51 deephub
阅读(35)
评论(0)
推荐(0)
2025年9月28日
从零构建短视频推荐系统:双塔算法架构解析与代码实现
摘要: 刷短视频本来只想看几分钟,不知不觉一个多小时就没了。每条视频都恰好戳中你的兴趣点,这种精准推送背后其实是一套相当复杂的工程架构。 这种"读心术"般的推荐效果并非偶然。驱动这种短视频页面的核心引擎,正是业内广泛采用的双塔推荐系统(Two-Tower Recommendation System)。 本文
阅读全文
posted @ 2025-09-28 21:09 deephub
阅读(13)
评论(0)
推荐(0)
2025年9月27日
AI智能体框架怎么选?7个主流工具详细对比解析
摘要: 大语言模型(LLM)虽然拥有强大的理解和生成能力,但本质上还只是一个能够处理文本的模型,并且它们无法主动获取信息、执行操作或与外部系统交互。 而AI智能体可以通过为LLM配备工具调用、环境感知和自主决策能力,将静态的语言模型转化为能够独立完成复杂任务的自治系统。AI智能体可以主动获取实时信息、执行多
阅读全文
posted @ 2025-09-27 21:10 deephub
阅读(20)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
144
下一页
公告