Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

Cradle:仅靠屏幕图像输入 AI模仿人类玩《荒野大镖客2》

by 小互
2024年3月11日
in AI 项目
0 0
0
0
SHARES
76
VIEWS
Share on FacebookShare on Twitter

Cradle,一个具有强大推理能力的代理框架,旨在探索通用计算机控制领域,以《荒野大镖客2》(Red Dead Redemption II)这款复杂的AAA级游戏作为案例研究。项目的核心目标是开发一种多模态代理(Agent),这种代理能够通过与人类相同的通用界面(即屏幕图像作为输入,键盘和鼠标操作作为输出)来执行复杂的计算机任务。

项目主要内容和目标:

  • 通用计算机控制(GCC):提出了一种新的设置,即通过仅使用计算机的屏幕图像(可能还包括音频)作为输入,并产生键盘与鼠标操作作为输出,构建能够掌握任何计算机任务的基础代理。这种方式模仿了人类与计算机的互动方式。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Color Health 与OpenAI 合作 开发出Cancer Copilot 加速癌症患者治疗

Color Health 与OpenAI 合作 开发出Cancer Copilot 加速癌症患者治疗

130 VIEWS
2024年6月18日
字节跳动发布一些列新的模型 包括基于DIT的视频生成模型、音乐模型,同声传译模型等

字节跳动发布一些列新的模型 包括基于DIT的视频生成模型、音乐模型,同声传译模型等

969 VIEWS
2024年9月24日
OpenAI 高层 Reddit AMA 完整版

OpenAI 高层 Reddit AMA 完整版

73 VIEWS
2024年11月1日
Gemini 1.5 Pro和Gemini 1.5 Flash 150页技术报告

Gemini 1.5 Pro和Gemini 1.5 Flash 150页技术报告

278 VIEWS
2024年5月18日
E5-V:多模态大语言模型的通用嵌入 统一不同模态的“嵌入表示”

E5-V:多模态大语言模型的通用嵌入 统一不同模态的“嵌入表示”

79 VIEWS
2024年7月22日
Adobe 推出新的 Firefly Image 3 Model 模型

Adobe 推出新的 Firefly Image 3 Model 模型

126 VIEWS
2024年4月23日
MIMO:给定一个参考图像 、视频 几分钟即可生成一个可以控制动作和场景的动画人物

MIMO:给定一个参考图像 、视频 几分钟即可生成一个可以控制动作和场景的动画人物

1.1k VIEWS
2024年9月25日
斯坦福大学人工智能研究院发布《2024 年人工智能指数报告》

斯坦福大学人工智能研究院发布《2024 年人工智能指数报告》

547 VIEWS
2024年4月16日
Med-Gemini:基于Google Gemini的多模态医学大模型 可以理解手术视频

Med-Gemini:基于Google Gemini的多模态医学大模型 可以理解手术视频

556 VIEWS
2024年4月30日
OpenAI 首席科学家MIT演讲:揭示 o1模型训练核心 激励模型学习是培养 AGI 的最佳方式

OpenAI 首席科学家MIT演讲:揭示 o1模型训练核心 激励模型学习是培养 AGI 的最佳方式

446 VIEWS
2024年9月22日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版