试玩 GOWOG ，初探 OpenAI（使用 NeuroEvolution 神经进化）与 Golang 多人在线游戏开发

GOWOG：

原项目：https://github.com/giongto35/gowog
我调整过的：https://github.com/Kirk-Wang/gowog

GOWOG 是一款迷你的，使用 Golang 编写的多人 Web 游戏。

试玩游戏

Demo：http://game.giongto35.com

在 Agent 上的 AI 实验

由于服务器，客户端和消息是分离的，因此很容易与后端进行通信。
此项目是用 Python 编写的 AI agent，可以学习与环境的交互。
这个实验是利用 neuroevolution (神经进化）在迷宫中寻找一条路径。

油管 Demo：https://www.youtube.com/watch?v=pWbb1m91mhU

本地 Docker 运行

run_local.sh

#!/bin/bash
docker build . --build-arg HOSTNAME=localhost:8080 -t gowog_local|| exit
docker stop gowog
docker rm gowog
docker run --privileged -d --name gowog -p 8080:8080 gowog_local server -prod client/build/

执行，我本地是 Mac：

./run_local.sh

打开 http://localhost:8080

本地开发

游戏包含两部分：服务器和客户端。服务器使用 Golang，客户端使用 Node.JS 和 Phaser 游戏引擎。

服务器

为少调整过的项目：Kirk-Wang/gowog

我的本地环境是 go 1.14。

本地启动：

go run cmd/server/*

服务器将监听 8080。

客户端

npm install
npm run dev -- --env.HOST_IP=localhost:8080 # HOST_IP -> 服务器地址

进入 http://localhost:3000

注意

在开发过程中，客户端在端口 3000 上运行，服务器端在端口 8080 上运行。

在 production 和 docker环境中，已构建 Client，golang 服务器将在同一端口 8080 上返回客户端页面。因此，如果我们运行 docker 环境，则游戏将在浏览器中的 http://localhost:8080 运行。

通讯约定

服务器和客户端之间的通信包基于 protobuf。安装 protoc 以生成 protobuf。

http://google.github.io/proto-lens/installing-protoc.html

每次你在 server/message.proto 中有更改（package singature）时。请运行：

cd server
./generate.sh

游戏前端设计

这个前端项目是基于：

https://github.com/RenaudROHLINGER/phaser-es6-webpack

├── client
│   ├── index.html
│   ├── src
│   │   ├── config.js: javascript config
│   │   ├── index.html
│   │   ├── main.js
│   │   ├── sprites
│   │   │   ├── Leaderboard.js: Leaderboard object
│   │   │   ├── Map.js: Map object
│   │   │   ├── Player.js: Player object
│   │   │   └── Shoot.js: Shoot object
│   │   ├── states
│   │   │   ├── Boot.js Boot screen
│   │   │   ├── const.js
│   │   │   ├── Game.js: Game master
│   │   │   ├── message_pb.js: Protobuf Message
│   │   │   ├── Splash.js
│   │   │   └── utils.js
│   │   └── utils.js

每个对象都是从 Sprite 继承的类。
玩家包含 shootManager，每次射击时，shoot manager 都会生成新的 bullet。

游戏后端设计方案

Components（组件）

游戏中主要有 5 个实体。他们的状态是私有的

实体	私有状态
`Client`	websocket.Conn	client hold 住 websocket 连接
`Hub`	Client	Hub 处理所有通讯, 包含所有 client 列表
`ObjManager`	Player, Shoot, ...	ObjManager 包含所有 Player 和 Shoot，处理游戏逻辑
`Game Master`	ObjManager, Hub	Master object 由 ObjManager 和 Hub 组成

Architecture（架构图）

不同的实体通过包装在函数中的 channel 彼此调用。

Client 与 Server 交互设计方案

Player connect（玩家连接）

Player Disconnect（玩家断开连接）

Client input（客户端输入）

Profile

Profile 是研究 Golang 性能并找出 slow components 的方法。运行服务器时，可以使用标志 --cpuprofile 和--memprofile 来配置 server。

cd server
go run cmd/server/* --cpuprofile --memprofile

代码结构

├── server
│   ├── cmd
│   │   └── server
│   │       └── server.go: Entrypoint running server
│   ├── game
│   │   ├── common
│   │   ├── config
│   │   │   └── 1.map: Map represented 0 and 1
│   │   ├── gameconst
│   │   ├── game.go: Game master objects, containing logic and communication
│   │   ├── mappkg
│   │   ├── objmanager
│   │   ├── playerpkg
│   │   ├── shape
│   │   ├── shootpkg
│   │   ├── types.go
│   │   └── ws
│   │       ├── wsclient.go
│   │       └── wshub.go
│   ├── generate.sh: Generate protobuf for server + client + AI environment
│   ├── message.proto
│   └── Message_proto
│       └── message.pb.go
├── Dockerfile
└── run_local.sh

AI 训练设计方案

此仓库包含遵循 openAI Gym 格式和训练脚本的 CS2D 环境。
训练脚本使用 NeuroEvolution(神经进化)在迷宫中找到到达目的地的最短路径。

https://www.youtube.com/watch?v=pWbb1m91mhU

运行

按照的说明运行 gowog 环境。即本地 Docker 运行：

./run_local.sh

使用 virtualenv 设置 python3 虚拟环境（直接用 Docker 吧~）。

安装 requirements.txt 所包含的库。

运行训练脚本

python train_ga.py -n save_file_name

save_fie_name 是保存权重（weights）的地方。
在下一次，如果我们指定了一个现有的文件，它将继续从该文件的最后一次运行中的权重（weights）进行训练。

Genetic Algorithm（遗传算法）

_cs2denv_ga.py 的实现_

基于机器学习的目的，CS2D Agent 是在 CS2D 上构建的。
它遵循 openAI gym，支持 agent 的基本方法，包括：reset()、step()、observation_space 和action_space。

ObservationSpace 是一个一维数组，它由来自服务器的 update_player 消息构造而成

Player position（玩家位置）, player size（玩家大小尺寸）, number of columns（列数）, number of rows（行数）, block width（块宽度）, block height（块高度）
到左，右，上，下到最近 block（块）的距离。此输入是为了避免碰撞
玩家在二进制块地图（binary block map）中的位置。地图是 0 和 1 的 2 维数组（0 为空，1 为块）
binary block map

奖励是 1 / distance(目标的距离)。如果 agent 接近目标 100 点，那么奖励就是 1，情节结束。

NeuroEvolution（神经进化）

_train_ga.py 的实现_

神经网络（Neural Network）通过使输入（观察空间）通过神经网络来获得最佳动作。

NeuroEvolution（神经进化）是使用进化算法不断改进人工神经网络的AI。对于每次迭代（生成），程序将基于前一次迭代中的最佳设置生成一组新的神经网络权重。由先前的 NN(神经网络) 生成一个 NN 的过程叫做 Mutate，它给神经网络中的每个参数添加随机噪声。

一个特别的改进是，我们只存储应用于神经网络的噪声种子列表，而不是存储所有的代权值。因为在同一个种子下，所有的随机化都是相同的，所以一个种子可以代表一个网络的突变算子。我们不需要保留每一代的所有权值，我们只需要存储一组从开始到当前一代的种子，然后从这组种子中重新构造权值来得到所有神经网络的权值。

代码是基于 Maxim Lapan 的 "Deep Reinforcement Learning Hands-On"

https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On/blob/master/Chapter16/04_cheetah_ga.py

我是为少。
微信：uuhells123。
公众号：黑客下午茶。
谢谢点赞支持👍👍👍！

posted @ 2021-01-27 13:06 为少阅读(1029) 评论(0) 收藏举报

刷新页面返回顶部

为少