wangssd

2025年10月20日

摘要：核心性质：马尔可夫性：一个随机过程在给定现在状态和所有历史状态的情况下，其未来状态的条件概率分布仅依赖于当前状态。即未来的转移和过去是独立的，只取决于现在。马尔可夫决策过程是顺序决策问题的数学模型，用于在随机性和不确定性的环境中模拟智能体的决策过程。简单来说，它描述了一个场景：一个“智能体阅读全文

posted @ 2025-10-20 15:47 wangssd 阅读(46) 评论(0) 推荐(0)

2025年10月17日

开源数据采集工具 logstash(收集日志)/telegraf(收集指标)

摘要： Telegraf 是一个用 Go 编写的代理程序，是收集和报告指标和数据的代理。可收集系统和服务的统计数据，并写入到 InfluxDB 数据库。Telegraf 具有内存占用小的特点，通过插件系统开发人员可轻松添加支持其他服务的扩展。 Telegraf是TICK Stack的一部分，是一个插件驱动的阅读全文

posted @ 2025-10-17 10:10 wangssd 阅读(87) 评论(0) 推荐(0)

2025年10月16日

时序数据库 influxdb

摘要： ubuntu安装： https://www.oryoy.com/news/ubuntu-xi-tong-xia-qing-song-bu-shu-influxdb-ru-men-jiao-cheng-yu-shi-zhan-an-li.html # 安装influxdb 时序数据库 sudo apt 阅读全文

posted @ 2025-10-16 13:52 wangssd 阅读(23) 评论(0) 推荐(0)

2025年10月15日

kv cache缓存

摘要：计算自注意力时，Q（查询）向量在每次解码步骤中都是全新的，而 K（键）和 V（值）向量大部分是重复的，缓存 K 和 V 可以避免大量的重复计算。下面通过一个具体的例子来详细解释为什么。自注意力机制在解码（生成）过程中，对于每一个新生成的 token，都有： Q (Query)：来自当前新生成的阅读全文

posted @ 2025-10-15 13:36 wangssd 阅读(47) 评论(0) 推荐(0)

vllm 大模型推理框架

摘要： vLLM 通过命令行工具 python -m vllm.entrypoints.api_server 启动 OpenAI 兼容的 API 服务器，其参数涵盖了模型加载、推理、调度和服务的各个方面。启动命令基本结构 bash python -m vllm.entrypoints.api_server 阅读全文

posted @ 2025-10-15 11:28 wangssd 阅读(297) 评论(0) 推荐(0)

2025年10月11日

强化学习动作空间(离散/连续)

摘要： 1. 离散动作空间的策略网络在离散空间中，动作是可数的，例如：{左，右，上，下} 或 {加速，刹车}。网络架构与处理方式输出层：Softmax 策略网络的最后一层是一个 Softmax 层。假设有 N 个可选动作，网络会输出一个长度为 N 的向量。 Softmax 函数确保这个向量的阅读全文

posted @ 2025-10-11 13:42 wangssd 阅读(164) 评论(0) 推荐(0)

2025年10月9日

强化学习中五大要素(核心概念)

摘要：强化学习的标准框架是马尔可夫决策过程（MDP），它由五个基本元素构成(不可或缺的部分)：状态（S）、动作（A）、状态转移（P）、奖励（R）和折扣因子（γ）。状态（S）：描述了环境是什么样子。动作（A）：智能体可以做什么。状态转移（P）：环境如何响应动作。奖励（R）：定义了“好”与“坏”，是阅读全文

posted @ 2025-10-09 11:06 wangssd 阅读(258) 评论(0) 推荐(0)

强化学习实验环境库 gym/Gymnasium

摘要： Gym库(https://gym.openai.com) 是OpenAI推出的强化学习实验环境库。它用Python语言实现了离散之间智能体-环境接口中的环境部分。每个环境就代表着一类强化学习问题，用户通过设计和训练自己的智能体来解决这些强化学习问题。OpenAI 已经将 Gym 的维护权移交给了 F 阅读全文

posted @ 2025-10-09 10:59 wangssd 阅读(314) 评论(0) 推荐(0)

多智能体强化学习算法（MAPPO, Multi-Agent Proximal Policy Optimization）

摘要：多智能体强化学习算法分为中心式和分散式中心式的思想是考虑一个合作式的环境，直接将单智能体算法扩展，让其直接学习一个联合动作的输出，但是并不好给出单个智能体该如何进行决策。分散式是每个智能体独立学习自己的奖励函数，对于每个智能体来说，其它智能体就是环境的一部分，因此往往需要去考虑环境的非平稳态，并阅读全文

posted @ 2025-10-09 08:51 wangssd 阅读(382) 评论(0) 推荐(0)

2025年9月30日

强化学* *端策略优化（ppo）

摘要：马尔可夫决策过程（Markov Decision Process, MDP）是强化学*问题的数学框架。MDP通过五元组 (S, A, P, R, γ) 来描述，其中： S：状态空间，表示所有可能状态的集合。 A：动作空间，表示智能体可以执行的所有动作的集合。 P：状态转移概率矩阵，P(s'|s 阅读全文

posted @ 2025-09-30 10:37 wangssd 阅读(69) 评论(0) 推荐(0)

公告