上一页 1 2 3 4 5 6 ··· 29 下一页
摘要: 计算自注意力时,Q(查询)向量在每次解码步骤中都是全新的,而 K(键)和 V(值)向量大部分是重复的,缓存 K 和 V 可以避免大量的重复计算。 下面通过一个具体的例子来详细解释为什么。 自注意力机制 在解码(生成)过程中,对于每一个新生成的 token,都有: Q (Query):来自当前新生成的 阅读全文
posted @ 2025-10-15 13:36 wangssd 阅读(12) 评论(0) 推荐(0)
摘要: vLLM 通过命令行工具 python -m vllm.entrypoints.api_server 启动 OpenAI 兼容的 API 服务器,其参数涵盖了模型加载、推理、调度和服务的各个方面。 启动命令基本结构 bash python -m vllm.entrypoints.api_server 阅读全文
posted @ 2025-10-15 11:28 wangssd 阅读(81) 评论(0) 推荐(0)
摘要: 1. 离散动作空间的策略网络 在离散空间中,动作是可数的,例如:{左, 右, 上, 下} 或 {加速, 刹车}。 网络架构与处理方式 输出层:Softmax 策略网络的最后一层是一个 Softmax 层。 假设有 N 个可选动作,网络会输出一个长度为 N 的向量。 Softmax 函数确保这个向量的 阅读全文
posted @ 2025-10-11 13:42 wangssd 阅读(27) 评论(0) 推荐(0)
摘要: 强化学习的标准框架是 马尔可夫决策过程(MDP),它由五个基本元素构成(不可或缺的部分):状态(S)、动作(A)、状态转移(P)、奖励(R)和折扣因子(γ)。 状态(S):描述了环境是什么样子。 动作(A):智能体可以做什么。 状态转移(P):环境如何响应动作。 奖励(R):定义了“好”与“坏”,是 阅读全文
posted @ 2025-10-09 11:06 wangssd 阅读(96) 评论(0) 推荐(0)
摘要: Gym库(https://gym.openai.com) 是OpenAI推出的强化学习实验环境库。它用Python语言实现了离散之间智能体-环境接口中的环境部分。每个环境就代表着一类强化学习问题,用户通过设计和训练自己的智能体来解决这些强化学习问题。OpenAI 已经将 Gym 的维护权移交给了 F 阅读全文
posted @ 2025-10-09 10:59 wangssd 阅读(143) 评论(0) 推荐(0)
摘要: 多智能体强化学习算法分为 中心式和分散式 中心式的思想是考虑一个合作式的环境,直接将单智能体算法扩展,让其直接学习一个联合动作的输出,但是并不好给出单个智能体该如何进行决策。分散式是每个智能体独立学习自己的奖励函数,对于每个智能体来说,其它智能体就是环境的一部分,因此往往需要去考虑环境的非平稳态,并 阅读全文
posted @ 2025-10-09 08:51 wangssd 阅读(202) 评论(0) 推荐(0)
摘要: 马尔可夫决策过程(Markov Decision Process, MDP)是强化学*问题的数学框架。MDP通过五元组 (S, A, P, R, γ) 来描述,其中: S: 状态空间,表示所有可能状态的集合。 A: 动作空间,表示智能体可以执行的所有动作的集合。 P: 状态转移概率矩阵,P(s'|s 阅读全文
posted @ 2025-09-30 10:37 wangssd 阅读(37) 评论(0) 推荐(0)
摘要: 策略网络。它的作用是接收单个智能体的局部观测,并输出一个在当前状态下应该采取各种动作的概率分布。智能体根据这个分布进行采样,得到最终执行的动作。 输入: 智能体 *i* 在时间步 *t* 的局部观测。 输出: 一个动作概率分布。对于离散动作空间,输出是一个softmax概率向量;对于连续动作空间,通 阅读全文
posted @ 2025-09-30 10:13 wangssd 阅读(17) 评论(0) 推荐(0)
摘要: 深度学习是一种技术方法,大模型是这种方法的产物和应用,而强化学习是一种解决问题的框架(方法论和控制系统),它可以利用深度学习和大模型作为其强大的工具。 深度学习: 是一个复杂的、多层的“神经网络”,能够从海量数据(比如数百万张游戏画面)中学习并识别出复杂的模式(比如什么是“敌人”,什么是“奖励”)。 阅读全文
posted @ 2025-09-30 10:05 wangssd 阅读(31) 评论(0) 推荐(0)
摘要: 报错信息:{'message': 'Invalid n value (currently only n = 1 is supported)', 'type': 'invalid_request_error', 'param': None, 'code': 'invalid_request_error 阅读全文
posted @ 2025-09-29 14:13 wangssd 阅读(21) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 29 下一页