zero-sum game

引言

GAN一般是从对抗的角度理解,即生成器和分辨器做着对抗游戏。其中最简单的游戏为zero-sum game。

定义

zero-sum性质意味着两个玩家,如果一方得利,那么另一方就一定会受损。且任意选取一种策略,两个玩家的收益损失之和为0。

与GAN的联系

在GAN中,生成器\(G\)和分辨器\(D\)为两个玩家,任意一个\(G\)或者\(D\)就代表一种策略。对于分辨器,它的收益为
\begin{equation}
\frac{1}{2}E_{x~data}logD(x)+\frac{1}{2}E_{z}(1-logD(G(z)))。
\end{equation}
如果是零和游戏,那生成器的收益就是上式的负数。有限策略零和游戏使用纳什均衡、minimax和maximin求解都会得到相同的解(非零和游戏则解不同)。其中价值函数为上式,minimax的含义为一个玩家要使得另一个玩家所能得到的最大收益最小,也就是希望自己所受的最大损失最小。

自言自语

GAN的生成器生成分布\(P_{model}(x)\),想要使得这个分布尽可能接近\(P_{data}(x)\),而分辨器需要为测量分布\(P_{model}(x)\)和分布\(P_{data}(x)\)之间的距离提供信息,从这个角度,其可以帮助生成器更好地建模分布。那么分辨器提供的这个信息就很关键,在GAN中,分辨器提供的信息是给定一个样本,判断它有多大概率属于真实分布。具体来说,来自分布\(P_{model}(x)\)和分布\(P_{data}(x)\)的样本被分别label为0和1,然后使用公式1作为损失函数。一直困扰我的矛盾是,对于一个样本,如果它的标签要么是0要么是1,而分辨器的最优解\(\frac{P_{data}(x)}{P_{data}(x)}+P_{model}(x)\)。其实这个矛盾的前提就是错的,因为会存在样本的标签同时为0和1。

posted @ 2020-03-11 16:27  graycastle  阅读(926)  评论(0)    收藏  举报