xerwin - 博客园

2022年10月31日

摘要：在整篇文章论述开始之前，我们先做一些概念性的讲解铺垫。卷积神经网络的各层卷积单元在模型网络中实际上有充当了目标检测器的作用，尽管没有提供对目标位置的监督。虽然其拥有在卷积层中定位对象的非凡能力，但当使用全连接层进行分类时，这种能力就会丧失。基于此，提出了CAM（类激活映射）的概念，采用全局平均池化，以热力图的形式告诉我们，模型通过哪些像素点得知图片属于某个类别，使模型透明化和具有可解释性。阅读全文

posted @ 2022-10-31 18:02 xerwin 阅读(195) 评论(0) 推荐(0) 编辑

2022年9月29日

深度学习：文本分类模型中的“蒸”功夫

摘要： 2018年Bert的横空出世给自然语言处理带来了巨大的突破，Bert及其衍生模型在多个文本处理下游任务中达到了SOTA的结果。但是这样的提升是有一定代价的，其中之一就是计算量的大幅增长。 BERT-base模型是由12层Transformer构成，模型有大约1亿参数参与运算，而效果更好的BERT-large由24层的Transformer组成，参数量甚至达到了3亿，巨大的参数量对GPU的性能和显存提出了更高的要求，尤其是在企业的落地应用中，需要更加高级的GPU来完成模型训练。在推理过程中的情况也是如此，在部署到线上的实际情况下，对文本分析的响应是ms级的，而租用高算力的服务器需要花费大量的成本，那么有没有方法可以鱼与熊掌兼得，在不牺牲分类精度的情况下减少模型复杂度呢？答案是肯定的。阅读全文

posted @ 2022-09-29 15:05 xerwin 阅读(64) 评论(0) 推荐(0) 编辑

深度强化学习之COMA

摘要：在多Agent的强化学习算法中，前面我们讲了QMIX，其实VDN是QMIX的一个特例，当求导都为1的时候，QMIX就变成了VDN。QTRAN也是一种关于值分解的问题，在实际的问题中QTRAN效果没有QMIX效果好，主要是QTRAN的约束条件太过于松散，导致实际没有理论效果好。但是QTRAN有两个版本，QTRAN_BASE和QTRAN_ALT，第二版本效果比第一要好，在大部分实际问题中和QMIX的效果差不多。上述的算法都是关于值分解的，每个agent的回报都是一样的。如果在一局王者荣耀的游戏中，我方大顺风，我方一名角色去1打5，导致阵亡，然后我方4打5，由于我方处于大优势，我方团灭对方，我方所有的agent都获得正的奖励。开始去1打5的agnet也获得了一个正的奖励，显然他的行为是不能获得正的奖励。就出现了“吃大锅饭”的情况，置信度分配不均。COMA算法就解决了这种问题，利用反事实基线来解决置信度分配的问题。COMA是一种“非中心化”的策略控制系统。阅读全文

posted @ 2022-09-29 11:43 xerwin 阅读(79) 评论(0) 推荐(0) 编辑

2022年8月23日

[深度强化学习]D3QN原理及代码实现

摘要： 2016年Google DeepMind提出了Dueling Network Architectures for Deep Reinforcement Learning，采用优势函数advantage function，使Dueling DQN在只收集一个离散动作的数据后，能够更加准确的去估算Q值，选择更加合适的动作。Double DQN，通过目标Q值选择的动作来选择目标Q值，从而消除Q值过高估计的问题。D3QN（Dueling Double DQN）则是结合了Dueling DQN和Double DQN的优点。阅读全文

posted @ 2022-08-23 18:52 xerwin 阅读(571) 评论(0) 推荐(0) 编辑

浅谈TD3：从算法原理到代码实现

摘要：众所周知，在基于价值学习的强化学习算法中，如DQN，函数近似误差是导致Q值高估和次优策略的原因。我们表明这个问题依然在AC框架中存在，并提出了新的机制去最小化它对演员（策略函数）和评论家（估值函数）的影响。我们的算法建立在双Q学习的基础上，通过选取两个估值函数中的较小值，从而限制它对Q值的过高估计。阅读全文

posted @ 2022-08-23 18:43 xerwin 阅读(673) 评论(0) 推荐(0) 编辑

不等式视角下的策略梯度算法

摘要：强化学习（Reinforcement Learning，RL），也叫增强学习，是指一类从（与环境）交互中不断学习的问题以及解决这类问题的方法。强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标（比如取得最大奖励值）。和深度学习类似，强化学习中的关键问题也是贡献度分配问题[1]，每一个动作并不能直接得到监督信息，需要通过整个模型的最终监督信息（奖励）得到，并且有一定的延时性。本文首先通过简介强化学习基于策略函数的学习方法引出策略梯度，接着通过一般化的公式推论得到策略梯度的最优表达式，最后在排序不等式的视角下解读策略梯度的最优表达式。主要概括为以下两个部分：（1）策略梯度的最优表达式推导（2）排序不等式下的策略梯度阅读全文

posted @ 2022-08-23 18:26 xerwin 阅读(40) 评论(0) 推荐(0) 编辑

深度学习与强化学习的两大联姻：DQN与DDPG的对比分析

摘要： Q学习（Q-Learning）算法是提出时间很早的一种异策略的时序差分学习方法；DQN则是利用神经网络对Q-Learning中的值函数进行近似，并针对实际问题作出改进的方法；而DDPG则可以视为DQN对连续型动作预测的一个扩展；本文将从定义对比分析DQN和DDPG，更好地理解二者的算法区别与联系。本文首先通过简介DQN和DDPG涉及的常见概念，接着从DQN开始分析理解其算法流程，然后进一步地分析DDPG，最后总结二者的区别与联系。本文主要分为以下两个部分：（1）相关概念简介（2）DQN的算法分析（3）DDPG的算法分析阅读全文

posted @ 2022-08-23 18:11 xerwin 阅读(319) 评论(0) 推荐(0) 编辑

2022年7月14日

内容安全的主要场景有哪些

摘要：在当下环境中，互联网运营者有时会不知如何管理内容安全。聊天信息、短信、文章和直播视频充满了内容安全风险，因此在市场上发展出了多家内容审核的企业，为有需求的公司提供内容安全的核心能力。内容安全的主要场景有：UGC内容智能审核、垃圾短信/彩信、游戏防拉人与舆论风控、未成年认证（防沉迷）、人脸扫描等。阅读全文

posted @ 2022-07-14 17:36 xerwin 阅读(75) 评论(0) 推荐(0) 编辑

浅谈从Q-Learning到DQN

摘要： DRL（Deep Reinforcement Learning）的首次惊艳亮相，应该是 DeepMind 在2013年首次将其应用于 Atari 游戏中提出的 DQN（Deep Q Network）算法。到现在，短短7年间，DRL 已经从玩 Atari，进化为下围棋（Alphago）、玩电竞（Dota AI、StarCraft AI），一次次刷新大家的三观。阅读全文

posted @ 2022-07-14 16:57 xerwin 阅读(719) 评论(0) 推荐(0) 编辑

2022年7月8日

浅谈德州扑克AI核心算法：CFR

摘要：自2017年AlphaGo打败世界围棋冠军柯洁后，人工智能彻底进入大众视野，一时间棋牌类的AI在人工智能界掀起了一股大风。其实早在AlphaGo之前，人们就对棋牌类的人工智能发起了挑战，从简单的跳棋、五子棋，到更加复杂的中国象棋、国际象棋，以及最近非常热门的围棋和德州扑克,数十年间也是硕果累累。而相对于跳棋、象棋等完全信息游戏，德州扑克不仅要根据不完全信息进行复杂决策，还要应付对手的虚张声势、故意示弱等招数，其对应的博弈树无论是广度还是深度都十分庞大，它也一直都是科学家们想要攻克的高山。而在AlphaGO打败柯洁的同年，德扑AI DeepStack和Libratus也先后在 “一对一无限注德州扑克” 上击败了职业扑克玩家,在不完全信息博弈中做出了里程碑式的突破，而他们所采用的的核心算法就是Counterfactual Regret Minimization(CFR)。阅读全文

posted @ 2022-07-08 20:28 xerwin 阅读(140) 评论(0) 推荐(0) 编辑

2022年7月5日

[行者谛听内容安全]游戏社交如何建立内容审核机制

摘要：国内的游戏行业在过去的数十年里飞速发展。渐渐地，关于游戏中传播的内容管控也逐渐严格，行业内的内容管控需求日益增长。如果一款游戏社交平台想要呈现合格的内容，首先要规范平台，根据内容来源去区分和梳理平台内容；其次还需要制定平台内容获取标准，避免影响账号用户的体验感；最后，可以通过第三方服务商的帮助，进阅读全文

posted @ 2022-07-05 12:08 xerwin 阅读(154) 评论(0) 推荐(0) 编辑

2022年6月23日

怎样打击游戏中违法交易的灰黑产业链？

摘要：行者AI谛听：智能内容审核针对文本、图片、音频、视频内容中的非法售卖，营销宣传等数据的抓取，采用前后置数据拦截恶意推销，从而杜绝违规交易灰黑产的产生。较人工审核相比，智能内容审核成本更低、审核效率更高效、知识库里的信息量积累的更全面、认知标准把控尺度更统一、实时信息数据抓取更快速、也可以全天24小时运作，这大大降低了人工审核的缺陷。阅读全文

posted @ 2022-06-23 11:11 xerwin 阅读(234) 评论(0) 推荐(0) 编辑

2017年11月14日

[深度学习]实现一个博弈型的AI，从五子棋开始（2）

摘要：最近AlphaGo Zero的发布，深度学习又火了一把，小伙伴们按捺不住内心的躁动，要搞一个游戏AI，好吧，那就从规则简单、老少皆宜的五子棋开始讲起。要做AI，得先有场景，上一篇我们实现了一个五子棋的逻辑，讲道理，有个规则在，可以开始搞AI了，但是考虑到不够直观，并且也要简单测一下上一篇的逻辑实现得有没有问题，我们还是顺带先把五子棋的UI也先搞出来。本文使用PyGame来实现UI部分。阅读全文

posted @ 2017-11-14 22:43 xerwin 阅读(20644) 评论(16) 推荐(10) 编辑

2017年11月13日

[深度学习]实现一个博弈型的AI，从五子棋开始（1）

摘要：最近AlphaGo Zero的发布，深度学习又火了一把，小伙伴们按捺不住内心的躁动，要搞一个游戏AI，好吧，那就从规则简单、老少皆宜的五子棋开始讲起。要做AI，得先有场景，所以本文先实现一个五子棋的逻辑。阅读全文

posted @ 2017-11-13 23:41 xerwin 阅读(14842) 评论(15) 推荐(19) 编辑

2017年11月10日

基于OpenConnect 构建的SSL VPN解决方案

摘要： VPN（Virtual Private Network），虚拟专用网络，是一种通过公用网络安全地对企业内部专用网络进行远程访问的连接方式，可有效保障通信的机密性。如，出差办公人员可通过VPN通道安全地访问公司内部OA系统。发展至今的VPN同时融合了访问控制、路由选择、传输管理等多种功能，在全球的信息安全体系及各行业的信息系统中已发挥着重要作用。本文基于OpenConnect构建的SSL VPN解决方案构建VPN，并具有智能路由和带宽限速功能。在实际的应用场景中，还可进一步结合FreeIPA来实现企业级的统一用户身份认证与授权管理。配合桌面云为企业管理及远程办公提供便利。阅读全文

posted @ 2017-11-10 22:00 xerwin 阅读(113) 评论(0) 推荐(0) 编辑

使用GHOST对Windows操作系统进行备份和还原

摘要： GHOST又方便又实用，那么它就十全十美了吗？当然不是，实际上，在现实应用中GHOST也存在一定不足。随着现在硬盘容量的增大，C盘空间很容易就达到10G甚至30-60G以上，用GHOST的方式来备份往往需要漫长的时间。如果在备份过程中，发生断电或硬盘损害，会对备份恢复的过程徒增很多麻烦。备份的GHO文件很容易遭到破坏或删除。小白在操作过程中，如果选择不当，容易造成更多麻烦。市面上大多数Ghost系统带一堆预设的软件，甚至携带病毒。其次，Ghost还可能存在驱动不兼容问题，从而导致系统蓝屏、闪屏等。针对Ghost的不足，可使用桌面云解决方案完美解决：桌面云管理效率超高，仅需10分钟的时间即可完成数十台桌面刷新；针对系统故障，管理员轻可轻松远程解决；数据备份技术，可确保数据零丢失。阅读全文

posted @ 2017-11-10 21:09 xerwin 阅读(1385) 评论(0) 推荐(0) 编辑

2011年12月2日

摘要： “群落” 是全球第一款基于图片组的近场社交电子商务平台。每一个“群落”就是一个基于兴趣或者地点的图片组。能够方便的在精确人群中进行分享，也可以在精确人群中进行社交化电子商务。阅读全文

posted @ 2011-12-02 22:08 xerwin 阅读(816) 评论(9) 推荐(1) 编辑

2011年3月4日

[学习]SVM入门（一）

摘要：本文通过例子介绍了支持向量机(Support Vector Machine)及线性分类器的基础知识和原理。阅读全文

posted @ 2011-03-04 11:22 xerwin 阅读(970) 评论(1) 推荐(0) 编辑

2010年12月15日

MongoDB and C#

摘要： Introduction Most likely you have used a relational database and been fairly happy with it. I know I have. Be it SQL Server or MySQL, I know how to use my tools efficiently to push, pull, and transfor... 阅读全文

posted @ 2010-12-15 18:02 xerwin 阅读(3959) 评论(0) 推荐(0) 编辑

HP大中华区总裁孙振耀退休感言

摘要：如果这篇文章没有分享给你，那是我的错。如果这篇文章分享给你了，你却没有读，继续走弯路的你不要怪我。如果你看了这篇文章，只读了一半你就说没时间了，说明你已经是个“茫”人了。如果你看完了，你觉得这篇文章只... 阅读全文

posted @ 2010-12-15 14:32 xerwin 阅读(475) 评论(2) 推荐(1) 编辑

XSpace

Nothing Is Impossible!

公告