上一页 1 2 3 4 5 6 7 8 9 ··· 32 下一页
摘要: 核心性质: 马尔可夫性: 一个随机过程在给定现在状态和所有历史状态的情况下,其未来状态的条件概率分布仅依赖于当前状态。即未来的转移和过去是独立的,只取决于现在。 马尔可夫决策过程 是顺序决策问题的数学模型,用于在随机性和不确定性的环境中模拟智能体的决策过程。 简单来说,它描述了一个场景:一个“智能体 阅读全文
posted @ 2025-10-20 15:47 wangssd 阅读(46) 评论(0) 推荐(0)
摘要: Telegraf 是一个用 Go 编写的代理程序,是收集和报告指标和数据的代理。可收集系统和服务的统计数据,并写入到 InfluxDB 数据库。Telegraf 具有内存占用小的特点,通过插件系统开发人员可轻松添加支持其他服务的扩展。 Telegraf是TICK Stack的一部分,是一个插件驱动的 阅读全文
posted @ 2025-10-17 10:10 wangssd 阅读(87) 评论(0) 推荐(0)
摘要: ubuntu安装: https://www.oryoy.com/news/ubuntu-xi-tong-xia-qing-song-bu-shu-influxdb-ru-men-jiao-cheng-yu-shi-zhan-an-li.html # 安装influxdb 时序数据库 sudo apt 阅读全文
posted @ 2025-10-16 13:52 wangssd 阅读(23) 评论(0) 推荐(0)
摘要: 计算自注意力时,Q(查询)向量在每次解码步骤中都是全新的,而 K(键)和 V(值)向量大部分是重复的,缓存 K 和 V 可以避免大量的重复计算。 下面通过一个具体的例子来详细解释为什么。 自注意力机制 在解码(生成)过程中,对于每一个新生成的 token,都有: Q (Query):来自当前新生成的 阅读全文
posted @ 2025-10-15 13:36 wangssd 阅读(47) 评论(0) 推荐(0)
摘要: vLLM 通过命令行工具 python -m vllm.entrypoints.api_server 启动 OpenAI 兼容的 API 服务器,其参数涵盖了模型加载、推理、调度和服务的各个方面。 启动命令基本结构 bash python -m vllm.entrypoints.api_server 阅读全文
posted @ 2025-10-15 11:28 wangssd 阅读(297) 评论(0) 推荐(0)
摘要: 1. 离散动作空间的策略网络 在离散空间中,动作是可数的,例如:{左, 右, 上, 下} 或 {加速, 刹车}。 网络架构与处理方式 输出层:Softmax 策略网络的最后一层是一个 Softmax 层。 假设有 N 个可选动作,网络会输出一个长度为 N 的向量。 Softmax 函数确保这个向量的 阅读全文
posted @ 2025-10-11 13:42 wangssd 阅读(164) 评论(0) 推荐(0)
摘要: 强化学习的标准框架是 马尔可夫决策过程(MDP),它由五个基本元素构成(不可或缺的部分):状态(S)、动作(A)、状态转移(P)、奖励(R)和折扣因子(γ)。 状态(S):描述了环境是什么样子。 动作(A):智能体可以做什么。 状态转移(P):环境如何响应动作。 奖励(R):定义了“好”与“坏”,是 阅读全文
posted @ 2025-10-09 11:06 wangssd 阅读(258) 评论(0) 推荐(0)
摘要: Gym库(https://gym.openai.com) 是OpenAI推出的强化学习实验环境库。它用Python语言实现了离散之间智能体-环境接口中的环境部分。每个环境就代表着一类强化学习问题,用户通过设计和训练自己的智能体来解决这些强化学习问题。OpenAI 已经将 Gym 的维护权移交给了 F 阅读全文
posted @ 2025-10-09 10:59 wangssd 阅读(314) 评论(0) 推荐(0)
摘要: 多智能体强化学习算法分为 中心式和分散式 中心式的思想是考虑一个合作式的环境,直接将单智能体算法扩展,让其直接学习一个联合动作的输出,但是并不好给出单个智能体该如何进行决策。分散式是每个智能体独立学习自己的奖励函数,对于每个智能体来说,其它智能体就是环境的一部分,因此往往需要去考虑环境的非平稳态,并 阅读全文
posted @ 2025-10-09 08:51 wangssd 阅读(382) 评论(0) 推荐(0)
摘要: 马尔可夫决策过程(Markov Decision Process, MDP)是强化学*问题的数学框架。MDP通过五元组 (S, A, P, R, γ) 来描述,其中: S: 状态空间,表示所有可能状态的集合。 A: 动作空间,表示智能体可以执行的所有动作的集合。 P: 状态转移概率矩阵,P(s'|s 阅读全文
posted @ 2025-09-30 10:37 wangssd 阅读(69) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 ··· 32 下一页