游戏带来的独特体验在于让人沉浸在一个引人入胜的世界与故事中 , 并让人经历一段与众不同的旅途。其中的情节与世界观又往往通过玩家与 NPC 的互动一点一点展开。然而 , 无论 NPC 有多生动 , 程序设置的本质终会提醒我们 : 你面前的并非某个角色 , 而是游戏制作者。
因此 , 许多玩家渴望一个开放世界 , 到处是与人类无异的智能 NPC, 如《西部世界》或《刀剑神域》中那般。在 AI 技术跳跃式发展的 2023 年,我们似乎能看到一些雏形与尝试。
斯坦福和 Google 的研究团队近期设计了一个实验并发表了论文 , 目的是验证 AI 是否已经达到可以模拟人类复杂社交互动的程度。
在实验中 , 研究人员创建了 25 个 AI 虚拟角色 , 每个角色都设定了独特的个人信息 , 包括姓名、职业、人生目标等 , 这些 AI 角色被置入一个小镇中。基于大语言模型技术 , 这个虚拟小镇上的 AI 能够进行日常生活对话 , 对环境进行交互。虽然并不完美 , 但已为其在更真实场景下模拟人类丰富社交提供了基础。
它们能自发产生话题 , 传播信息 , 就公共事务形成不同观点。在实验的虚拟小镇环境下 ,AI 角色 Sam 宣布要竞选市长 , 这一信息很快在其他 AI 角色之间传播开来。其中 ,Tom 表示支持 Sam 的决定 , 因为 Sam 一直致力于小区工作 , 可以为小区发展作出新贡献。Tom 后来与 John 讨论 Sam 的选举胜算 , 两人都预期 Sam 会成功当选。
Sam 要竞选市长的消息成为虚拟小镇的热门话题 , 一些 AI 角色表示支持 , 一些则持观望态度。尽管 AI 角色的对话并不总是自然流畅 , 但能在一定程度上模拟人类社会关系的复杂性 , 实现信息的有效传播和讨论 , 形成不同的立场和态度。
在虚拟小镇实验中 ,AI 角色 Isabella 的初始设定是需要在情人节举行一个派对。Isabella 在咖啡馆工作 , 她逢人便邀请其他 AI 角色参加她的派对。Isabella 的女儿 Maria 也邀请她暗恋的对象 Klaus 来参加。除 Isabella 举办派对和 Maria 暗恋 Klaus 的初始设定外 , 其他行为如传播派对信息、布置派对场地、邀请其他人等完全由 AI 自主完成。
在 NPC 的八卦下,最终有 12 个 AI 角色知晓这个派对信息 , 但只有 5 个角色实际出席 , 包括这对相互暗恋的角色 Maria 和 Klaus。其他 7 个 AI 角色没有出席 , 研究人员后来分析了他们的理由 , 有 4 个原本表示有兴趣但没来 , 另外 3 个找了其他的理由。这里 AI 展现出一定的观察力和反思能力 , 可以在一定程度上解释角色放鸽子的理由。
NPC 是如何有灵魂的?
那么研究团队具体是如何让这些 NPC 看起来更 " 人性化 " 的呢?他们制定了一种智能体架构来检索记忆 , 动态地更新他们过去的经验 , 并将其与智能体的上下文和计划结合 , 这些经验、上下文和计划可能相互加强或相互矛盾。整个架构有三个主要的组件:记忆、计划和反思。每个组件负责执行特定的功能。
在记忆与检索的方法中 , 记忆流将智能体当前的经历和观察提供给语言模型,语言模型据此可以输出更加符合人类行为的指令与内容。检索功能则会根据不同的情况进行选择,如最近访问的事件以及事件的重要性与相关性。这些方法有助于语言模型选择与当前情况相关且重要的记忆 , 让智能体的反应更加连贯和具体。
计划描述了智能体未来的行动序列 , 并帮助智能体的行为随时间保持一致。一个计划包括位置、开始时间和持续时间。例如 , 快到截止日期时 ,Klaus 可能选择把一天时间花在桌前起草研究论文。
反思则是一种更高级别的记忆 , 可以回顾记忆和做出更高层次的推理。当智能体对事件的感知达到一定阈值时就会进行反思,根据智能体近期经历提出的问题 , 然后 , 语言模型进行回答并引用相关记忆作为证据。问 Klaus 最想与谁在一起 , 他选择 Maria 而不是与他互动最频繁的人 , 因为 Klaus 热衷学术研究,而 Maria 也总是在做学术研究。
最后 , 研究者还让 25 名人类参与者来评估不同类型的智能体在人性方面的可信度。结果显示 , 生成式智能体虽然在语言产生方面达到较高水平 , 但在理解和生成非语言信息方面 , 如个性、情感和社交性等方面 , 其水平还不及人类。自然语言模型在非语言的理解与生成方面存在局限 , 而如何解决与克服这一局限也是未来研究的方向。
在以往的游戏中,虚拟世界中的角色时有真实之感 , 这归因于游戏创作者在游戏性与故事性之间的完美平衡 , 以及玩家在游戏中同人物与环境互动的沉浸感。
我们也能实际体验到游戏中 NPC 的智能化。《荒野大镖客 2》里 NPC 会记得玩家曾经帮他吸出过蛇毒,再次相遇时会给予感恩和回报。《巫师 3》开场支线任务里的 NPC 会欺骗并利用并玩家的善良来达到自己的目的。但这些游戏一般采用编写 AI 行为的方法来与玩家展开互动性叙事 , 如有限状态机和行为树等。
虽然它们可以处理基本的社交互动 , 但不可能完全涵盖开放世界中所有可能的互动行为范围。考虑到制作人员的工作量和效率,这些方法通常简化了环境或行为的维度,尚未解决在开放世界中可信智能体的问题。
较为开放的沙盒游戏如《矮人要塞》和《环世界》是叙事过程生成技术的典范。里面每个 NPC 都在编写自己的个人历史,细看却发现某些事件之间还是缺乏关联性和逻辑性。
使用机器算法训练的 AI 往往出现在那些易于定义奖励的对抗游戏中 , 这些奖励可以被学习算法优化。这种方式设计出的 AI 非常智能,在某些方面甚至超越人类 , 如星际争霸战中的 Alpha Star 和 Dota 2 中的 Rerun 能击败职业选手。
可以看出,传统的基于状态机、行为树的而设计的 AI 和较近的基于深度学习设计的 AI 在游戏中都有各自典型的运用。斯坦福大学的这个研究项目巧妙地向我们展示了如何将 GPT-3.5 这种基于深度学习的大语言模型融入游戏之中。现在,让游戏中的 AI 与玩家直接对话也不是什么新鲜事了。
一款使用大语言模型的游戏《Origins》就曾有玩家上传了游戏实机体验视频。就目前的演示来看,玩家可以直接与游戏内 NPC 对话,去询问证人找出事件真相。玩家分别与清洁机器人和人类进行了对话,与机器人的对话较为流畅,但人类这边的语调和表情就 " 机械感 " 十足,相当违和。
《辐射 4》近期也出现了一款可以为游戏自动生成对话和全程配音的 Mod。目前该 Mod 为游戏添加 300 多条全新对话,在一定程度上解决《辐射 4》" 对话轮系统 " 的限制 , " 对话轮系统 " 只提供了四种选项 , 限制了玩家的自由度。AI 生成的声音已经与原声非常相近 , 但目前听起来还是略微 " 缺乏感情 "。
SE 免费新作《SE AI 技术预览:港口镇连续杀人事件》一经推出就 " 特别差评 ",好评率不足 10%。据介绍,这款游戏运用多种 AI 技术,自然语言处理(NLP)、自然语言理解(NLU)、语音转文字(STT)等。实际体验下来所谓的自由对话就是纯噱头,只有在提到某些触发词或关键词时,NPC 才会生成实质性的、有价值的对话。
当然运用这项技术的游戏远不止这些,在实际体验中也能够明显地感受到这项技术中瑕疵的、机械化的一面。
即使是当今最强大的语言模型 GPT-4,其本质更多的是一个统计学原理的概率模型,它的出发点并不是逻辑和语义。" 奈何本人没文化,一句卧槽行天下。" 在日常生活中,语言与行为活动密不可分,只言片语就能表达丰富的涵义。哲学家维特根斯坦的 " 语言游戏 " 就说明了这点,深究语言的本质只会走入死胡同,语言的使用比语法更重要,我们需要考虑实际的应用场景。
而到了算力有限,系统交互同样复杂的游戏中,目前的 AI 在游戏上还是有点捉襟见肘了,它们无法理解语言符号和非语言符号的关联。就目前来看,利用 AI 技术缩减游戏开发中的重复性工作和流程 , 游戏开发商投入更多成本和资源到游戏内容和体验本身的开发上,这可能是一条更加符合实际需求和发展趋势的道路。至于未来,我们不妨大胆展望,西部世界在有生之年或许能够实现。毕竟世界上第一架飞机只飞行了 36.6 米,而短短六十年,人们就可以在云端俯瞰生灵,宣告头顶并没有什么上帝。