会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wangssd
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
31
下一页
2025年10月11日
强化学习 动作空间(离散/连续)
摘要: 1. 离散动作空间的策略网络 在离散空间中,动作是可数的,例如:{左, 右, 上, 下} 或 {加速, 刹车}。 网络架构与处理方式 输出层:Softmax 策略网络的最后一层是一个 Softmax 层。 假设有 N 个可选动作,网络会输出一个长度为 N 的向量。 Softmax 函数确保这个向量的
阅读全文
posted @ 2025-10-11 13:42 wangssd
阅读(95)
评论(0)
推荐(0)
2025年10月9日
强化学习中五大要素(核心概念)
摘要: 强化学习的标准框架是 马尔可夫决策过程(MDP),它由五个基本元素构成(不可或缺的部分):状态(S)、动作(A)、状态转移(P)、奖励(R)和折扣因子(γ)。 状态(S):描述了环境是什么样子。 动作(A):智能体可以做什么。 状态转移(P):环境如何响应动作。 奖励(R):定义了“好”与“坏”,是
阅读全文
posted @ 2025-10-09 11:06 wangssd
阅读(198)
评论(0)
推荐(0)
强化学习实验环境库 gym/Gymnasium
摘要: Gym库(https://gym.openai.com) 是OpenAI推出的强化学习实验环境库。它用Python语言实现了离散之间智能体-环境接口中的环境部分。每个环境就代表着一类强化学习问题,用户通过设计和训练自己的智能体来解决这些强化学习问题。OpenAI 已经将 Gym 的维护权移交给了 F
阅读全文
posted @ 2025-10-09 10:59 wangssd
阅读(249)
评论(0)
推荐(0)
多智能体强化学习算法(MAPPO, Multi-Agent Proximal Policy Optimization)
摘要: 多智能体强化学习算法分为 中心式和分散式 中心式的思想是考虑一个合作式的环境,直接将单智能体算法扩展,让其直接学习一个联合动作的输出,但是并不好给出单个智能体该如何进行决策。分散式是每个智能体独立学习自己的奖励函数,对于每个智能体来说,其它智能体就是环境的一部分,因此往往需要去考虑环境的非平稳态,并
阅读全文
posted @ 2025-10-09 08:51 wangssd
阅读(303)
评论(0)
推荐(0)
2025年9月30日
强化学* *端策略优化(ppo)
摘要: 马尔可夫决策过程(Markov Decision Process, MDP)是强化学*问题的数学框架。MDP通过五元组 (S, A, P, R, γ) 来描述,其中: S: 状态空间,表示所有可能状态的集合。 A: 动作空间,表示智能体可以执行的所有动作的集合。 P: 状态转移概率矩阵,P(s'|s
阅读全文
posted @ 2025-09-30 10:37 wangssd
阅读(49)
评论(0)
推荐(0)
强化学习网络
摘要: 策略网络。它的作用是接收单个智能体的局部观测,并输出一个在当前状态下应该采取各种动作的概率分布。智能体根据这个分布进行采样,得到最终执行的动作。 输入: 智能体 *i* 在时间步 *t* 的局部观测。 输出: 一个动作概率分布。对于离散动作空间,输出是一个softmax概率向量;对于连续动作空间,通
阅读全文
posted @ 2025-09-30 10:13 wangssd
阅读(25)
评论(0)
推荐(0)
强化学习、深度学习、大模型、智能体
摘要: 深度学习是一种技术方法,大模型是这种方法的产物和应用,而强化学习是一种解决问题的框架(方法论和控制系统),它可以利用深度学习和大模型作为其强大的工具。 深度学习: 是一个复杂的、多层的“神经网络”,能够从海量数据(比如数百万张游戏画面)中学习并识别出复杂的模式(比如什么是“敌人”,什么是“奖励”)。
阅读全文
posted @ 2025-09-30 10:05 wangssd
阅读(58)
评论(0)
推荐(0)
2025年9月29日
ragas 评估报错 {'message': 'Invalid n value (currently only n = 1 is supported)', 'type': 'invalid_request_error', 'param': None, 'code': 'invalid_request_error'}
摘要: 报错信息:{'message': 'Invalid n value (currently only n = 1 is supported)', 'type': 'invalid_request_error', 'param': None, 'code': 'invalid_request_error
阅读全文
posted @ 2025-09-29 14:13 wangssd
阅读(50)
评论(0)
推荐(0)
2025年9月28日
docker常用命令
摘要: # 查看所有容器(运行中和已停止的) docker ps -a # 进入nginx容器内部 docker exec -it nginx_container bash # 导出镜像docker save -o flask_app.tar flask_app:v1# 导出容器docker export
阅读全文
posted @ 2025-09-28 09:43 wangssd
阅读(10)
评论(0)
推荐(0)
2025年9月26日
RAGAS大模型评估框架
摘要: 一、RAGAs评估 RAGAs (Retrieval-Augmented Generation Assessment) 是一个框架,可以帮助快速评估RAG系统的性能,为了评估 RAG 系统,RAGAs 需要以下信息: question:用户输入的问题。answer:从 RAG 系统生成的答案(由LL
阅读全文
posted @ 2025-09-26 17:26 wangssd
阅读(412)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
31
下一页
公告