Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Anthropic 发布Claude 3.5 Haiku 以及一项炸裂的新功能 AI可以模仿人类访问电脑

by 小互
2024年10月23日
in XiaoHu.AI日报
0 0
0
Anthropic 发布Claude 3.5 Haiku 以及一项炸裂的新功能 AI可以模仿人类访问电脑
0
SHARES
285
VIEWS
Share on FacebookShare on Twitter

Anthropic 宣布推出改进版的 Claude 3.5 Sonnet、全新的 Claude 3.5 Haiku,以及一项名为“computer use 模拟计算机使用”的新功能。

也就是Claude 能够模仿人类的方式使用电脑,它可以自主查看屏幕、移动光标、点击按钮、输入文本等。 还能够自动化执行多个步骤的复杂任务,如填写在线表格、搜索数据、提交报告等,从而大幅减少人工操作时间。

Claude 3.5能够在计算机界面上导航,通过切换窗口、打开菜单、选择选项等操作,完成多步骤的任务。

开发者可以利用这项功能自动化重复任务、开发和测试软件、进行开放式任务(如研究),甚至在复杂的应用场景中进行交互。

10月22日 (5) 1

模拟人类的电脑交互

  • 屏幕查看:AI能够“查看”计算机屏幕上的内容,识别界面元素,并根据指令进行交互。
  • 光标移动:Claude 3.5能够模拟光标移动,准确定位目标区域,模仿人类在界面上的操作。
  • 点击按钮:模拟鼠标点击,执行界面上的按钮操作,推动任务的进一步完成。
  • 输入文本:AI可以在文本框中输入数据,支持表单填写、文档编辑等任务。

自动化复杂的多步骤任务

  • 任务自动化:AI可自动执行多个步骤的复杂任务,如填写在线表格、数据检索、提交报告等,减少人工操作时间。
  • 多步骤导航:能够在计算机界面上导航,通过切换窗口、打开菜单、选择选项等完成多步骤任务。

指令翻译与执行

  • 指令翻译:开发者可以给AI发出高层次的指令,例如“用电脑上的数据填写表格”,Claude 3.5能够将这些指令翻译成具体的电脑操作步骤。
  • 基于UI的工作流:不仅可执行单步操作,还可在用户界面中基于任务要求实现多步骤的工作流。

Claude 3.5 Sonnet改进

    • 该版本在多项行业基准测试中表现优异,尤其在编程和工具使用任务上有显著提升。
    • 在编程测试(SWE-bench Verified)中表现提高到49%,在零售领域的工具使用测试(TAU-bench)中提升至69.2%,航空领域则达到了46%。
    • 新版 Sonnet 与其前代版本保持相同的价格和速度,并在多步开发过程中提高了推理和编程能力。

更强的编程能力

  • 显著提升编程任务性能:
    • Claude 3.5 Sonnet 在 SWE-bench Verified 编程测试中的得分从 33.4% 提高到 49.0%,表现优于所有其他公开可用的模型(包括 OpenAI 的 o1-preview 和专用的编程模型)。
  • 更好的推理与工具使用:
    • 在零售领域的 TAU-bench 工具使用测试中得分从 62.6% 提升到 69.2%;在航空领域的挑战性更大的测试中,从 36.0% 提升到 46.0%。
  • 改进的多步任务处理:
    • 新版 Sonnet 在 DevSecOps(开发与安全操作)任务中表现更优,有高达 10% 的推理能力提升,且保持与前代相同的响应速度。

广泛适用的开发环境

  • 高效编程:
    • Claude 3.5 Sonnet 在多步软件开发过程中表现更优,对 AI 代理、工具使用和自动化任务等应用更具优势。
  • 企业合作测试:
    • 经过美国和英国 AI 安全研究所的联合预部署测试,确保在关键场景下的性能稳定性与安全性。
  • 用于 DevSecOps 和自主 AI 评估:
    • 例如,GitLab 在测试中发现该模型在 DevSecOps 任务上推理更准确,Cognition 公司则利用其在编码、规划和问题解决方面的提升,用于自动 AI 评估。

Claude 3.5 Haiku发布

Claude 3.5 Haiku 是速度最快的新一代模型,在多项测试中超越了上一代的 Claude 3 Opus,同时保持了低延迟和高指令跟随能力。该模型适用于用户界面任务、个性化体验生成等需求。

  • Claude 3.5 Haiku 是目前速度最快的模型,同时在多项智能基准测试中表现超越了 Claude 3 Opus。
  • 在编程测试(SWE-bench Verified)中,Claude 3.5 Haiku 的得分为 40.6%,超过许多其他先进模型(如原版 Claude 3.5 Sonnet 和 GPT-4o)。
  • 该模型在低延迟、跟随指令的准确性以及工具使用的精确度方面都有显著提升。
  • 特别适用于用户界面任务、个性化体验生成和大规模数据处理(如购买记录、定价或库存记录)。

主要功能与优势

    • 高速度与低延迟: 该模型在响应速度上更快,保持高效的指令跟随能力,适合各种实时应用场景。
    • 指令跟随的改进: 能够准确理解和执行复杂任务,包括编程、工具使用等,这使得它在多步骤任务中的表现尤为出色。
    • 适合多场景的应用: 无论是用于专门的子代理任务、用户界面任务,还是需要处理大量个性化数据的场景,Claude 3.5 Haiku 都表现出色。

Claude 3.5 Haiku 将在本月晚些时候上线,用户可以通过 Anthropic 的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 访问该模型。

初期版本将仅支持文本输入,未来会加入图像输入功能,进一步扩展其应用范围。

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
476
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
331
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
444
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
276
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
607
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

LLocalSearch:完全本地运行的搜索聚合器 无需 OpenAI 或 Google API

LLocalSearch:完全本地运行的搜索聚合器 无需 OpenAI 或 Google API

187 VIEWS
2024年4月11日
Magentic-One:微软发布用于解决复杂任务通用多智能体 可自行编写和执行代码并进行人机交互

Magentic-One:微软发布用于解决复杂任务通用多智能体 可自行编写和执行代码并进行人机交互

249 VIEWS
2024年11月9日
LSLM:一种新的语音模型 可以在和边你说话的同时继续倾听你说话 实时回复你

LSLM:一种新的语音模型 可以在和边你说话的同时继续倾听你说话 实时回复你

271 VIEWS
2024年8月8日
OpenAI 分享了内部员工如何使用 ChatGPT 企业版高效分析数据和发现洞察的实际案例

OpenAI 分享了内部员工如何使用 ChatGPT 企业版高效分析数据和发现洞察的实际案例

309 VIEWS
2024年8月12日
特斯拉We Robot 发布会全纪录:完全无人驾驶出租车、Optimus 机器人、Robovan(机器人巴士)

特斯拉We Robot 发布会全纪录:完全无人驾驶出租车、Optimus 机器人、Robovan(机器人巴士)

306 VIEWS
2024年10月11日
微软Office全家桶大更新 Excel 中集成 Python 推出 Pages和Copilot Agents等众多功能

微软Office全家桶大更新 Excel 中集成 Python 推出 Pages和Copilot Agents等众多功能

392 VIEWS
2024年9月18日
教程:无需编程知识 使用自己的照片快速训练一个自己的FLUX.1 图像模型

教程:无需编程知识 使用自己的照片快速训练一个自己的FLUX.1 图像模型

288 VIEWS
2024年9月10日
Omost:自动帮你完善提示词并生成符合你预期的图像

Omost:自动帮你完善提示词并生成符合你预期的图像

688 VIEWS
2024年6月2日
BlenderAlchemy:集成GPT-4V 通过聊天形式来进行3D图形编辑

BlenderAlchemy:集成GPT-4V 通过聊天形式来进行3D图形编辑

81 VIEWS
2024年4月30日
ViViD:视频虚拟试穿技术 可以随意替换视频中人物的衣服

ViViD:视频虚拟试穿技术 可以随意替换视频中人物的衣服

675 VIEWS
2024年5月30日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版