会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
全栈大魔王
博客园
首页
新随笔
联系
订阅
管理
2025年3月16日
强化学习入门
摘要: 策略梯度(Policy Gradient)和动作价值(Q-learning)辨析 一、核心区别 目标不同 策略梯度:直接学习策略函数(π(s→a)),通过最大化期望累积回报(J(θ))的梯度更新参数,目标是“如何直接选动作”。 Q-learning:学习状态-动作值函数Q(s,a),通过估计“选某个
阅读全文
posted @ 2025-03-16 18:59 全栈大魔王
阅读(69)
评论(0)
推荐(0)
2024年10月24日
支付通道网络(PCN)研究
摘要: 背景 为了缓解主链吞吐量和交易费用的弊端,支付通道网络的技术被提出。交易的双方节点可以通过智能合约搭建一个支付通道,双方各锁定一定数量的初始资金,进行无限次的链下交易,这些交易不会被发布在区块链上,直到通道关闭,才会最终提交到链上。 PCN的问题 多跳支付依赖于中间支付节点的可达性(路径余额、节点在
阅读全文
posted @ 2024-10-24 19:31 全栈大魔王
阅读(140)
评论(0)
推荐(0)
2021年6月20日
安卓逆向初探
摘要: 初涉Android,初涉逆向。 运用Android逆向分析工具对progress app进行了逆向分析和功能修改
阅读全文
posted @ 2021-06-20 16:55 全栈大魔王
阅读(633)
评论(3)
推荐(1)
公告