上一页 1 2 3 4 5 6 7 8 9 10 ··· 154 下一页
摘要: 当前主流 AI 智能体框架有一个共同的局限:智能体只能按预设逻辑执行任务,无法从运行时反馈中持续学习。模型权重是静态的,提示词需要人工迭代,整个系统缺乏自我优化的闭环。 Agent Lightning 针对这一问题提出了解决方案。它是一个框架无关的强化学习包装层,可以套在任意现有智能体外部,让智能体 阅读全文
posted @ 2026-02-01 21:14 deephub 阅读(35) 评论(0) 推荐(0)
摘要: 这篇文章从头实现 LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures。需要说明的是,这里写的是一个简洁的最小化训练脚本,目标是了解 JEPA 的本质:对同一文本创建两个视图,预测被遮蔽片段的嵌入, 阅读全文
posted @ 2026-01-31 21:36 deephub 阅读(7) 评论(0) 推荐(0)
摘要: 只用了几年时间,上下文窗口就从 4k 膨胀到 1000 万。Meta 发布的 Llama 4 Scout 的时候说这个模型支持 1000 万 Token,是 Llama 3 那 128k 的 78 倍。而Google Gemini 3 Pro 是 100 万,Claude 4 也桐乡市100万。 一 阅读全文
posted @ 2026-01-30 22:36 deephub 阅读(36) 评论(0) 推荐(0)
摘要: DQN 用 max Q(s',a') 计算目标值,等于在挑 Q 值最高的动作,但是这些动作中包括了那些因为估计噪声而被高估的动作,素以就会产生过估计偏差,直接后果是训练不稳定、策略次优。 这篇文章要解决的就是这个问题,内容包括:DQN 为什么会过估计、Double DQN 怎么把动作选择和评估拆开、 阅读全文
posted @ 2026-01-29 21:24 deephub 阅读(7) 评论(0) 推荐(0)
摘要: 如果你认为Claude Code 的使用流程就是随手丢一句话,然后就等结果那你就错了。 比如你对Claude Code 说 "重构这段代码,找出bug,写测试,优化性能,顺便解释一下。" 你可以看到它确实在努力,但结果一塌糊涂:可能在重构动了业务逻辑,解释写了一半就没了下文了,而且测试跟项目框架对不 阅读全文
posted @ 2026-01-28 21:48 deephub 阅读(18) 评论(0) 推荐(0)
摘要: 你有没有遇到过,在使用pandas的时候批处理任务跑完了, del df 执行了,甚至还使用了 import gc; gc.collect() 但是进程内存确没有减少。 我们首先就会想到这可能是"pandas 有内存泄漏",其实这不一定就是泄漏。可能是引用、分配器的正常行为。而且在pandas 3. 阅读全文
posted @ 2026-01-27 21:59 deephub 阅读(7) 评论(0) 推荐(0)
摘要: 构建过 AI agent 的人大概都遇到过这种情况:LLM 返回的数据"差不多"是你要的但又不完全对。比如会遇到字段名拼错了数据类型不对,或者干脆多了几个莫名其妙的 key。 这是问题出在哪?当前主流的 agentic AI 系统处理输出的方式太原始了,比如说脆弱的 JSON 解析、基于 promp 阅读全文
posted @ 2026-01-26 21:46 deephub 阅读(6) 评论(0) 推荐(0)
摘要: 为什么标准化要把均值设为0、方差设为1? 先说均值。均值就是平均数,所有观测值加起来除以个数。 μ是均值,n是数据点总数,xᵢ是每个数据点,所以均值就是数据的重心位置。比如均值是20,那20就是平衡点。这不是说所有点到20的距离相等而是说两边的"重量"刚好在20这个位置抵消掉。 而方差衡量的是数据有 阅读全文
posted @ 2026-01-25 21:02 deephub 阅读(6) 评论(0) 推荐(0)
摘要: 大语言模型在文本生成和推理上的表现有目共睹,但对于从非结构化文本构建可靠知识图谱这件事,依然是个老大难。这个问题的根源在于:语言模型的运作机制与结构化知识提取的需求之间存在本质性的错位。本文会介绍自动化知识图谱生成的核心难题:生成式模型为什么搞不定结构化提取,判别式方案能提供什么样的替代选择,生产级 阅读全文
posted @ 2026-01-24 22:49 deephub 阅读(9) 评论(0) 推荐(0)
摘要: 大语言模型发展到今天,写提示词不仅是个体力活,还是一个技术活。提示词的措辞稍微改一下,性能波动 20-50% 是常有的事。那能不能让 LLM 自己改进提示词呢? 本文主要讲的就是这个,一个处理复杂推理任务的 Agent,经过几轮自动迭代,准确率从 34% 飙到 97%相对提升 184%。下面是完整的 阅读全文
posted @ 2026-01-23 20:14 deephub 阅读(34) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 10 ··· 154 下一页