RL之深夜有感

世界似乎就是一个巨大的强化学习环境（Env），身处其中的每个人就是里面的智能体，有的为生计四处奔波；有的要探寻精神上的欢娱；有的似乎想跳出Env，不想再继续下去了；可以说每个人的target都不尽相同。我们每一天的生活可以看似是训练中的每一个step，看似平平无奇，实则改变之道就藏在其中。

与强化学习一样的，我们也可以从环境里获取奖励/惩罚，在日复一日的生活探索中，我们总结经验，积累奖励，只为实现心中的目标。

但这个环境确实太大了，鱼龙混杂的，人们看到了顺利到达target的智能体；看到了走捷径顺风顺水的智能体，看到了一开始就在target的智能体，他们渐渐的不甘于这样，开始抱怨为什么自己不能那么快的到达属于自己的target。于是每天的生活中，奖励变少了，惩罚变多了，戾气变重了，整个环境弥漫着抱怨，对立，猜疑，谩骂，消极的氛围。可是身处在这个环境的还这样一批智能体，他们从一出生开始就是惩罚，为了获取奖励每天都在拼尽全力，只关心自己每天的step，没有时间也没有精力来观测其他智能体的step，这时你问问他们，这个环境是怎么样的，能怎么样，不好不坏的吧。

作为普通的智能体，没有一出生就在target的概率，也没用顺利到达的target的幸运，但这样，也许这一批智能体可以一直探索环境。这个环境太大了，第一步step是惩罚，第二步也是，第十步乃至百步都是，但200步呢，千步呢，没人能预测到最终积累的是多大的奖励，只要一直朝正确方向的探索下去，也许下一步就是巨额奖励，也许下一步就是那一批幸运的智能体的done....

posted @ 2025-05-18 23:46 arroa 阅读(21) 评论(0) 收藏举报

刷新页面返回顶部

patrick-a

RL之深夜有感

公告