全栈大魔王

2025年3月16日

摘要：策略梯度（Policy Gradient）和动作价值（Q-learning)辨析一、核心区别目标不同策略梯度：直接学习策略函数（π(s→a)），通过最大化期望累积回报（J(θ)）的梯度更新参数，目标是“如何直接选动作”。 Q-learning：学习状态-动作值函数Q(s,a)，通过估计“选某个阅读全文

posted @ 2025-03-16 18:59 全栈大魔王阅读(111) 评论(0) 推荐(0)

2024年10月24日

支付通道网络(PCN)研究

摘要：背景为了缓解主链吞吐量和交易费用的弊端，支付通道网络的技术被提出。交易的双方节点可以通过智能合约搭建一个支付通道，双方各锁定一定数量的初始资金，进行无限次的链下交易，这些交易不会被发布在区块链上，直到通道关闭，才会最终提交到链上。 PCN的问题多跳支付依赖于中间支付节点的可达性（路径余额、节点在阅读全文

posted @ 2024-10-24 19:31 全栈大魔王阅读(186) 评论(0) 推荐(0)

2021年6月20日

安卓逆向初探

摘要：初涉Android，初涉逆向。运用Android逆向分析工具对progress app进行了逆向分析和功能修改阅读全文

posted @ 2021-06-20 16:55 全栈大魔王阅读(647) 评论(3) 推荐(1)

公告