历经3个多月的开发与调试,这款被深度学习AI加持的小游戏在上线后很快突破了冷启动阶段的匹配瓶颈,在没有买量和推广的情况下达到了3万+的日活,并且仍在快速增长。小而美的微信小游戏作为试验田,展现了AI技术应用于多人在线竞技游戏的巨大潜力。
《轮到你了揭秘篇》入选微信创意小游戏
易懂难精的多人推理游戏
超参数科技表示,《轮到你了揭秘篇》的设计灵感来自去年热播的同名日剧,玩法类似于《阿瓦隆》、《狼人杀》等身份推理类桌游。
游戏规则十分简单:
1)5名玩家会共度5个夜晚,其中“好人”方包括2位住民、1位目击者,“狼人”方包括2位捣乱者。
2)玩家每晚轮流提案要监控哪些人,被监控者无法行动,未被监控的捣乱者可以选择是否恶作剧。
3)满3晚恶作剧则捣乱者获胜,满3晚平安夜(且目击者没被捣乱者找出)则“好人方”获胜。
为适配小游戏的特殊场景,超参数科技在游戏中创新性地摒弃了语言线索,让玩家专注于事实线索,在不说话的情况下进行推理,用简化的游戏流程来满足碎片化场景下的游戏需求。
虽然本作的上手门槛很低,但核心玩法却有相当的策略深度。每局的游戏体验会随着参与者水平和风格的变化而显著变化,产生了可供反复体验的随机性与多样性,也增加了玩家对成长性的追求。
桌游的电子化到AI化
本作的玩法来源于桌游。经历电子化改造后,传统线下桌游存在的组局难、上手慢、耗时长等痛点得到了一定程度缓解,但核心的冷启动匹配问题始终未被解决——桌游玩家本身是小众群体,PVP用户量不足以形成网络效应,而PVE玩法又依赖于人机的设计。现阶段来看,操作单一的行为树人机无法满足需求,尤其在多人对抗游戏中,人机常常扮演“猪队友”,伤害用户体验。
在这样的背景下,超参数科技试图用深度学习AI来解决冷启动匹配问题,并围绕AI来设计玩法,要求AI能够达到如下标准:
1) 高拟人性
AI的表现需要符合人类玩家的常态,其他玩家无法分辨AI与真人。AI的操作有一定多样性——大部分是“常规操作”,偶尔也会犯下低级失误或打出“神之一手”。
2) 差异化段位
不同段位的AI能明显体现出符合该段位的水平。比如低等级AI失误率更高,逻辑链简单;而高等级AI有更多套路,推理/反推理能力更强,各身份下胜率也普遍更高。
3) 差异化风格
不同风格的AI在相同局面下会采取截然不同的行动。以捣乱者为例:冲锋型AI可能开局直接捣乱,力图快攻取胜;而猥琐型AI则可能连续潜水,甚至打出“双狼平安夜”,到后三轮再连续捣乱。
超参数科技希望将满足上述标准的AI引入到游戏中,实现桌游的AI化改造。通过大量行为拟人的、符合目标玩家段位的、具备多样化风格的AI“虚拟玩家”,来解决核心的冷启动匹配问题。
AI的实现路径
本作是一款非对称性的、非完美信息的博弈类游戏,给AI设计提出了很大的挑战。与传统的多智能体问题不同,AI不仅要学习在没有直接通信下的合作能力,甚至还要学习应该与谁进行合作、与谁进行对抗。同时,AI还需要学习伪装、欺骗等高级策略,以及复杂的推理能力。
与传统的“击败人类”的目标不同,超参数科技的AI旨在追求拟人性,以及差异化的段位能力和风格,从而实现AI的产品化落地,为此而创新地提出了一整套行之有效的AI实现路径。
当游戏还未正式上线时,无法获得大量的玩家数据。为此,超参数科技提出了从小样本中进行模仿学习的深度学习算法。该模型可以实现初步的行为操作和基本策略。但由于数据量少且没有分级,无法满足不同段位和风格的AI需求。于是,在模仿学习的基础上,AI通过强化学习来进一步提高能力,并获得不同的风格。
游戏中的隐藏信息主要体现在身份的隐藏。超参数科技将预测学习引入到强化学习算法中,该模块可以根据当前可见信息实时预测可能的身份组合,并将预测结果输入到强化学习模块中,从而引导模型的训练。该算法模拟了人类决策时的思考过程。
作为一款多人对抗游戏,传统的自对战方法会使得强化学习训练出现不稳定而难以收敛。超参数科技提出了一种基于种群的多智能体强化学习算法。通过设计从种群中挑选对手的机制,实现了稳定的收敛性。该种群中的每个个体在训练过程中挑选的对手均不相同,从而演化出具有不同风格特点的、相生相克的AI。通过对种群中的所有个体举办联赛,并进行排名,从而获得不同段位等级的AI。
AI的实现路径
目前达到的效果
游戏上线后,超参数科技观察到了AI(尤其是高等级AI)在对局中的许多高光时刻——
当AI作为捣乱者时,他懂得隐藏自己,不到关键时刻不亮剑。
l 二楼捣乱者AI在前两夜都选择了隐藏,并且在3.1和3.2反对了自己未被监控的提案,身份做好
l 3.3出现恶作剧后,一楼捣乱者AI开启自爆,不影响二楼身份,还顺手赚到第四晚恶作剧
l 利用住民的判断混乱,二楼捣乱者AI在5.4自爆同意,一举拿下比赛
即使被住民碰巧监控到了双狼、局势大逆风时,也能从少量线索中敏锐地捕捉到目击者。
l 第一晚投票时,五楼捣乱者AI被关同意,身份做坏,导致第二晚人类住民赌一把直接裸点两狼
l 第二晚平安夜导致被关的一楼五楼身份继续做坏,第三晚投票时三楼住民AI继续裸点两狼
l 鉴于二三楼过于冲锋,不像顺风局下的目击者,于是大胆狙杀从未进行过提案的四楼,准确命中目击者(PS:由于担心捣乱者AI是乱蒙的,我们专门查看了后台记录,显示AI预测四楼是目击者的概率高达96%)
当AI作为住民时,能快速推断出目击者和捣乱者的身份,并帮目击者挡刀;当AI作为目击者时,能谨慎地隐藏在暗处,引导住民取得胜利。
l 一楼住民AI在信息不明时尽可能多反对,2.3暴露二楼狼面较大,3.1四楼反关自己但放出了疑似狼的二楼,说明不是目击者,很可能是狼,结合三楼五楼经常反对、好面较大,于是在第四晚大胆点出双狼,并成功帮目击者挡刀
l 五楼目击者AI第一晚故意选错,又在3.2反对了正确提案,加上一楼住民看似手握更多信息,误导了捣乱者认为一楼是目击者
AI的应用与反馈
超参数科技为AI设计了一套调用机制。简单来说,会按照玩家段位针对性地匹配与其实力接近的AI,且玩家段位越低匹配到AI的概率越高。目的是当新手玩家对游戏理解还不够深时,能保证该玩家和其匹配到的其他玩家的对局体验;而随着玩家段位提升,又能逐步体会到“与人斗其乐无穷”。
对局统计的结果也反映出了这样的设计——对局中的AI调用个数随着段位增长而先增后减:低段位尽量配(低等级)AI防止“菜鸡互啄”;中段位鼓励玩家尽可能PVP;高段位由于玩家数量不足又需要(高等级)AI来填充匹配。
玩家的游戏数据体现了对这种设计的认可——在AI的陪伴下,截至目前,国服第一玩家的累计对局数已经达1600局,按每局最快3分钟来计,这需要80+小时的游戏时间;而国服Top100玩家的对局数均在300局以上,对应15+小时的游戏时间。
玩家反馈也表达出对游戏玩法的欢迎。
部分玩家反馈截图
未来展望
超参数科技坚信游戏与AI的结合可以为游戏侧和AI侧都带来「进化」的力量。
让游戏进化得更好玩。AI为玩家带来了具备更高拟人性、智能度、个性化甚至成长性的对局体验,为开发者带来了数倍提升的开发效率。除了冷启动匹配之外,超参数科技在内容生成、NPC设计、人机挑战等场景下也看到了AI的价值,更将进一步探索围绕AI打造的全新游戏品类,如《Artificial Intelligence and Games》一书中所说的那样,“to create new game designs that start from the existence of the AI.”
让AI进化得更智能。如超参数科技之前在“猎户座α”的研究工作中提到的,“每个智能体必须既能独立行动,又能与其他智能体进行合作或竞争,在这个不断变化的世界中适应与生存”。超参数科技相信,以电子游戏为载体,这种涵盖感知、理解、推理、决策、创造等全方位能力的“多智能体学习”将是AI的下一个里程碑,从虚拟世界反哺到现实世界的各行各业。
关注微信公众号:游戏陀螺(shouyoushouce),定时推送,游戏行业干货分享、爆料揭秘、互动精彩多。
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息
110777025(手游交流群)
108587679(求职招聘群)
228523944(手游运营群)
128609517(手游发行群)