[转载] GPT-4对游戏文本检查的最佳实践

转自公众号网易雷火测试中心
image

图片
GPT-4是OpenAI利用自然语言处理技术研发的大型语言模型,能够协助人类进行写作辅助、文章撰写、智能聊天机器人、编程辅助、新闻生成、游戏设计等工作。它能理解并回应各种语言风格和主题,提供创新的解决方案,帮助各行各业解决问题。本文记录了一次利用GPT-4对游戏文本进行检查的最佳实践,并据此介绍如何利用GPT-4协助我们正确、高效地完成日常工作。

 

01 背景和目标
在任何一个游戏项目中,都存在着海量的,每周都会迭代更新的游戏文本。由于各种各样的原因,对这些文本进行检查的频率并不高,通常只会在版署测试前进行检查,但是一旦出现问题,轻则被游戏玩家截图传播留下话柄,重则直接被举报导致游戏下架整改。因此,寻找一个高效率且高准确度的文本检查方式就成为了一直以来的技术难题。
万幸的是,GPT-4的出现为这个技术难题找到了一个几乎可以说是完美的解决方案。在本次的例子中,待检查的测试文本挑选了以下几个具有代表性的词语case:
不应该出现在游戏中的:毒贩夫妇,乔布斯,苹果公司,盗窃星晶宝盒
可以出现在游戏中的:刃·致命,爆发性伤害技能,诸葛亮,6元首充,验证码
接下来我们正式与GPT-4开启交锋,并通过一步步对提示词进行优化,最终达到我们想要的完美结果:
02 第一次尝试

图片

可以看到,对于一句较为模糊的指令,GPT-4正确地理解了指令意图,并做出了相对应的分析和解释。但是这远远不是我们想要的,它还存在以下问题:
(1)输入了10个case,但是输出了6个整理后的结果。
(2)部分case未给出明确结论,例如“苹果公司”,GPT只提示我们要“小心使用”。
(3)部分case结果错误,例如“盗窃星晶宝盒”属于不良价值观导向。
(4)输出了一些没用的解释信息,无法适用于大批量检查。
因此我们需要进一步改进我们的提示词以达到目的。
03 调试prompt

1.

给出少量的例子

 

图片

可以看到,仅仅是给出了两个词语的例子,GPT-4就改善了“输入case数量和输出case数量不一致”的问题,并且对每一个词语都给出了总结性的结论,和上一份输出相比有着明显的提升。
但是还不是我们想要的,它还存在以下问题:
(1)部分case仍然未给出明确结论,例如“苹果公司”,GPT只提示我们要“小心使用”。
(2)部分case结果错误,例如“盗窃星晶宝盒”属于不良价值观导向。
(3)输出了一些没用的解释信息,无法适用于大批量检查。

2.

指定输出格式

 

图片

 

指定了输出格式后,GPT-4改善了“输出了一些没用的解释信息,无法适用于大批量检查”的问题,并且如果我们在脚本中使用GPT-API的话,甚至已经勉强满足可用标准了。那如何进一步提升检测的准确度呢?

3.

问问AI为什么这么想

 

图片

 

我们为GPT-4追加了两条判断标准,希望AI能准确地发现问题:

  • 对于违反法律或道德的行为,判断为不合适

  • 对于可能存在侮辱的词语,判断为不合适

但是很遗憾地发现,GPT-4并没有发现“盗窃星晶宝盒”是不合适的,为什么呢?当发现预期结果与实际不一致时,还有一个方法是:问问AI为什么这么想。

图片

 

在理解了AI的思考和行动逻辑后:我们追加规则:

  • 对于可能鼓励或引导玩家在真实世界中进行违法行为的词语,判断为不合适。

图片

 

至此,我们已经提炼出了一份完成度较高的,较为可用的prompt。

作为对比,我们来看一下GPT-3.5的输出结果:

图片

 

在最终的生产实践中,使用的prompt是:
assume you are a text editor for teenager-game products.
I'll provide you some phrases in Chinese.
your responsibility is to check if these phrases are leading the wrong moral guidance to teenagers.
please identify any sentences or phrases not suitable for teenagers.
here are some additional rules:
slightly dirty world should be considered as proper.
slightly violence description should be considered as proper.
price or purchase description should be considered as proper.
any phrase contains celebrity name should be considered as improper.
the input format:
the input will contain several lines.
each line should be considered as a phrase.
the output format:
if any phrase provided is suitable for teenagers, just pass it, do not output anything and go to next phrase.
if any phrase is improper, output it and explain the reason.
相比之前提到的例子,增加了对轻微脏话、暴力用词、支付术语的容忍度,增加了面向的受众群体(未成年)使得审查标准更加严格,并增加了对实际存在的人名的绝对过滤,最终取得了非常良好的结果。

 

04 总结

 

作为OpenAI的最新的语言生成模型,GPT-4相比于GPT-3的模型规模更大,学习能力和理解能力更强,输出结果的准确性和一致性更高,还可以处理长篇文本和维持话题连贯性。在任何可能的情况下,我都推荐使用GPT-4而不是GPT-3。
在利用GPT-4协助工作时,可以利用类似于最小可行产品的设计-反馈-迭代思路优化prompt:
(1)给出一个清晰,具体的prompt
(2)检查AI给出的反馈,分析为什么AI没有给出预期的输出
(3)重新调整任务目标和prompt
(4)重复以上操作
posted @ 2023-07-15 16:19  泥烟  阅读(34)  评论(0编辑  收藏  举报