Cradle：仅靠屏幕图像输入 AI模仿人类玩《荒野大镖客2》

Cradle，一个具有强大推理能力的代理框架，旨在探索通用计算机控制领域，以《荒野大镖客2》（Red Dead Redemption II）这款复杂的AAA级游戏作为案例研究。项目的核心目标是开发一种多模态代理（Agent），这种代理能够通过与人类相同的通用界面（即屏幕图像作为输入，键盘和鼠标操作作为输出）来执行复杂的计算机任务。 项目主要内容和目标： 通用计算机控制（GCC） ：提出了一种新的设置，即通过仅使用计算机的屏幕图像（可能还包括音频）作为输入，并产生键盘与鼠标操作作为输出，构建能够掌握任何计算机任务的基础代理。这种方式模仿了人类与计算机的互动方式。

Cradle框架 ：为了达到GCC的目标，研究团队提出了Cradle，这是一个具有强大推理能力的代理框架，包括自我反思、任务推断和技能策划，以确保在各种任务中的泛化能力和自我改进。

在《荒野大镖客2》中的应用 ：Cradle在《荒野大镖客2》这款游戏中得到了部署，Cradle是首个能够在复杂的AAA级游戏中遵循主线故事并完成实际任务的基于大型语言模型（LMM）的代理。这表明Cradle能够理解游戏内的任务要求，并通过合理的键盘与鼠标操作来实现目标，几乎不依赖于特定游戏的先验知识和资源。

Cradle的能力： 多模态输入处理 ：Cradle能够处理屏幕图像和可能的音频输入，模拟人类如何通过观察和听觉接收信息来与计算机互动。 复杂任务执行 ：它能在没有预定义API支持的封闭源商业游戏中，遵循主线故事并完成真实任务，这表明Cradle能够理解和执行复杂的任务序列。 自我反思和任务推断 ：代理具有自我反思的能力，能够基于过去的经验进行自我评估和决策优化；同时，它也能进行任务推断，确定下一步最佳任务是什么。 技能策划与行动规划 ：Cradle能生成和更新相关技能以适应给定任务，并规划具体的键盘和鼠标操作来执行这些技能。 长期记忆 ：它使用长期记忆来存储过去的经验和已知技能，这对于处理部分可观测的环境和需要历史知识的任务至关重要。 主要工作原理： Cradle 由六个主要模块组成：1）信息收集以处理多模式输入，2）自我反思以重新思考过去的经验，3）任务推理以选择最佳的下一个任务，4）技能管理以生成和更新相关技能给定的任务，5）用于决定键盘和鼠标控制的具体操作的行动计划，以及6）用于存储和检索过去的经验和已知技能的内存。 信息收集 ：Cradle首先通过处理屏幕图像（和音频）来收集环境信息，这等同于人类如何通过视觉和听觉感知来收集周围的信息。 多模态学习和决策 ：它利用深度学习和其他AI技术来理解这些多模态输入，并基于这些信息做出决策。这涉及到对游戏环境的理解、任务目标的识别和必要操作的确定。 自我改进机制 ：通过自我反思和任务推发现，Cradle能够从执行任务中学习，不断优化其行动策略以提高效率和效果。 模拟人类输入 ：最后，Cradle通过生成键盘和鼠标操作来与游戏或任何计算机应用交互，这些操作模拟了人类用户的行为。 Cradle通过这种工作原理展示了如何在没有特定于任务的先验知识和API支持的情况下，实现复杂任务的自动化执行，标志着向在广泛的计算机应用中部署通用AI代理迈出了重要一步。 研究成果 Cradle项目在《荒野大镖客2》中的应用展现了几个显著成果： 主线故事的跟随与任务完成 ：Cradle是首个能够在复杂的AAA级游戏中遵循主线故事并完成实际任务的基于大型语言模型（LMM）的代理。这表明Cradle能够理解游戏内的任务要求，并通过合理的键盘与鼠标操作来实现目标，几乎不依赖于特定游戏的先验知识和资源。

泛化能力 ：Cradle展示了强大的泛化能力，能够处理《荒野大镖客2》这种复杂环境中的多种任务和挑战。这证明了Cradle框架在理解和执行由屏幕图像和可能的音频输入指导的任务方面的有效性，进而展现了通用计算机控制（GCC）设置的潜力。

自我改进与技能学习 ：通过在游戏中的表现，Cradle证明了其在学习新技能、跟随游戏故事线和完成游戏任务方面的能力。这不仅体现了Cradle的实时学习和适应性，也显示了其长期记忆和任务推理能力。

尽管Cradle在《荒野大镖客2》中取得了显著成绩，但研究团队也指出了一些潜在的限制和挑战，例如特定任务的执行难度、多模态数据的处理，以及与复杂环境互动的准确性。未来的工作将旨在扩展Cradle的应用范围，支持更多类型的游戏和软件应用，同时改进代理的模态处理能力和自我改进机制，以实现更广泛的泛化和更高效的任务执行。 Cradle Mastering Open-Ended Tasks of Red Dead Redemption II (at 15x speed) Cradle 掌握 Red Dead Redemption II 的开放式任务（15 倍速） https://youtu.be/Oa4Ese8mMD0 项目及演示： https://baai-agents.github.io/Cradle/ 论文： https://arxiv.org/abs/2403.03186 GitHub： https://github.com/BAAI-Agents/Cradle