RL之深夜有感
世界似乎就是一个巨大的强化学习环境(Env),身处其中的每个人就是里面的智能体,有的为生计四处奔波;有的要探寻精神上的欢娱;有的似乎想跳出Env,不想再继续下去了;可以说每个人的target都不尽相同。我们每一天的生活可以看似是训练中的每一个step,看似平平无奇,实则改变之道就藏在其中。
与强化学习一样的,我们也可以从环境里获取奖励/惩罚,在日复一日的生活探索中,我们总结经验,积累奖励,只为实现心中的目标。
但这个环境确实太大了,鱼龙混杂的,人们看到了顺利到达target的智能体;看到了走捷径顺风顺水的智能体,看到了一开始就在target的智能体,他们渐渐的不甘于这样,开始抱怨为什么自己不能那么快的到达属于自己的target。于是每天的生活中,奖励变少了,惩罚变多了,戾气变重了,整个环境弥漫着抱怨,对立,猜疑,谩骂,消极的氛围。可是身处在这个环境的还这样一批智能体,他们从一出生开始就是惩罚,为了获取奖励每天都在拼尽全力,只关心自己每天的step,没有时间也没有精力来观测其他智能体的step,这时你问问他们,这个环境是怎么样的,能怎么样,不好不坏的吧。
作为普通的智能体,没有一出生就在target的概率,也没用顺利到达的target的幸运,但这样,也许这一批智能体可以一直探索环境。这个环境太大了,第一步step是惩罚,第二步也是,第十步乃至百步都是,但200步呢,千步呢,没人能预测到最终积累的是多大的奖励,只要一直朝正确方向的探索下去,也许下一步就是巨额奖励,也许下一步就是那一批幸运的智能体的done....

浙公网安备 33010602011771号