摘要: 策略梯度(Policy Gradient)和动作价值(Q-learning)辨析 一、核心区别 目标不同 策略梯度:直接学习策略函数(π(s→a)),通过最大化期望累积回报(J(θ))的梯度更新参数,目标是“如何直接选动作”。 Q-learning:学习状态-动作值函数Q(s,a),通过估计“选某个 阅读全文
posted @ 2025-03-16 18:59 全栈大魔王 阅读(69) 评论(0) 推荐(0)
摘要: 背景 为了缓解主链吞吐量和交易费用的弊端,支付通道网络的技术被提出。交易的双方节点可以通过智能合约搭建一个支付通道,双方各锁定一定数量的初始资金,进行无限次的链下交易,这些交易不会被发布在区块链上,直到通道关闭,才会最终提交到链上。 PCN的问题 多跳支付依赖于中间支付节点的可达性(路径余额、节点在 阅读全文
posted @ 2024-10-24 19:31 全栈大魔王 阅读(140) 评论(0) 推荐(0)
摘要: 初涉Android,初涉逆向。 运用Android逆向分析工具对progress app进行了逆向分析和功能修改 阅读全文
posted @ 2021-06-20 16:55 全栈大魔王 阅读(633) 评论(3) 推荐(1)