Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

智谱 AI 这次是真的国际领先了 发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西

by 小互
2024年10月25日
in XiaoHu.AI日报
1 0
0
智谱 AI 这次是真的国际领先了 发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西
0
SHARES
1.3k
VIEWS
Share on FacebookShare on Twitter

前天,Claude 才发布 Computer Use,让AI可以像人一样操控你的电脑来干活,已经很炸裂了。

这都还没热乎。

没想到国内的智谱 AI 就搞出了个“Phone Use ”,布了他们首个产品化的智能体——AutoGLM。

简单来说,它是一个能代替你在手机和网页上完成各种操作的AI助手,不需要手动搞那些复杂的流程,只需要说出你的需求,AutoGLM就可以可以模拟像人类操作手机打开APP一路火花带闪电全自动搞定。

AI小手-1024-1 1
它可以帮你:
  • 在微信上「给老板的朋友圈点赞并写评论」……
  • 在淘宝上「购买某一款历史订单产品」……
  • 在携程上预订酒店……
  • 在 12306 上购买火车票……
  • 在美团上点个外卖……
  • 给微信好友发信息打语音电话,总结公众号文章……
  • 小红书自动评论点赞关注……

使用场景

假如你正在做饭、洗漱、洗澡、运动、开车、忙着工作的时候,突然有一个事情要在手机上完成,而你抽不开手,很好的解放你的双手。

比如,看到老板发的朋友圈想点个赞并留个评论,或者在淘宝上重复购买之前买过的某样东西,甚至是预订酒店、购买火车票、叫车、导航这些琐碎的事情?

现在只需要对着你的手说出你想要干的事情,AutoGLM就能帮你全部搞定。

让我们一起来看看它有多神奇吧!

10月25日 (1)(3) 1

给微信好友发信息

10月25日 (1)(4) 1

给微信好友朋友圈点赞回复

AutoGLM并不仅限于简单的应用场景,它的目标是“做你在手机上能做的所有事情”。这意味着它可以帮你做任何你想做的手机操作——

10月25日 (1)

从淘宝购物 清空你的购物车

10月25日 (1)(1)

帮你点外卖,而且还可以自己选规格,比如咖啡的大中小杯、甜度、冰的还是热的等

10月25日 (1)(2) 1

帮你订酒店,而且还能筛选日期、位置、酒店价位、床型等各种复杂选项

AutoGLM 的核心技术创新

从浏览网页到下单购物,再到订酒店、订机票、设置导航无所不能。

这得益于它对手机界面的深刻理解和强大的学习能力。

为了让AutoGLM不断学习,智谱团队研发了“自进化在线课程强化学习框架”,这样AutoGLM可以像人一样,通过不断的学习和实践来变得越来越强大。它不仅能学会新技能,还能自我纠正和改进,保证在实际应用中能越来越好地满足用户的需求。

  1. “任务规划”和“动作执行”解耦
    • 就像分工合作一样,AutoGLM 把“任务规划”(想干什么)和“动作执行”(怎么操作)这两个步骤分开处理,用自然语言作为桥梁。
    • 这样做的好处是:智能体能更精准地执行操作。例如,当它需要在手机上点外卖时,能更准确地点击“提交订单”按钮。
    • 这就像先列一个购物清单,然后按单子去超市找东西。AutoGLM 通过用自然语言作为中间沟通桥梁,将这两个步骤分开进行,让每一步都更准确。
    • 这种设计使得智能体可以像人类一样,通过自然语言理解界面上的按钮、选项等元素。例如,在手机上点外卖时,它能先计划点击哪些按钮,然后精准地执行点击,确保订单被正确提交。
  2. 自我学习和逐步提升的框架
    • AutoGLM 有点像“学得快的小学生”:它在不断挑战自己,从简单到复杂,边学边做,并在过程中改进自己。
    • 每次完成任务后,它能够自我评估并找到下一步需要改进的地方。就像一个学生通过“刷题”不断挑战自己,从简单题目到复杂题目,逐步提升成绩。
    • 通过这个自我改进的机制,在不同的任务和环境中都能保持稳定的表现,比如在淘宝上购物、预定酒店等任务上,都能越来越得心应手。
AutoGLM 解决的关键挑战
  1. 动作执行不够精确
    • 问题: 智能体在操作屏幕时,可能会因为轨迹不准确而误点击,类似于你想点“支付”却点成了“取消”。
    • 解决方法: AutoGLM 使用了解耦设计,把“想做什么”和“怎么做”分开处理。这样它能先想好每一步的操作,再去精准地点击或滑动界面。这让智能体的操作更像人类,减少了错误几率。
  2. 任务规划不够灵活
    • 问题: 面对复杂的任务(比如在一个新网站上查找特定信息),传统的智能体可能会“卡住”,因为它缺乏灵活应对的能力。
    • 解决方法: AutoGLM 使用了一个自进化的学习框架,它在真实环境中边学边做,不断调整策略。就像你第一次用新手机时不太熟练,但用久了就变得越来越快,AutoGLM 也是这样通过不断适应和改进来提升自己。
    • 此外,AutoGLM 还会根据自己的表现调整学习难度,确保在应对复杂任务时依然灵活、准确。
在多种评测基准中表现优异:
  • 在 AndroidLab 评测基准上,AutoGLM 超越了 GPT-4o 和 Claude-3.5-Sonnet,在手机环境中的任务执行表现显著提升。
  • 在 WebArena-Lite 评测基准中,AutoGLM 的任务成功率相对 GPT-4o 提升了约200%,大大缩小了人类与大模型智能体在 GUI 操控上的成功率差距。

目前,AutoGLM的Web能力已经通过“智谱清言”插件对外公开使用,而在手机端,AutoGLM也已开放给部分安卓用户进行内测。如果你是安卓用户,不妨去申请体验,看看AutoGLM会如何让你的手机生活更加便捷有趣!

内测申请:https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

更令人期待的是,智谱还和荣耀等手机厂商展开了合作,未来会有更多手机直接内置AutoGLM,让每个人都可以享受到这种极致的AI体验。​

GLM-4-Voice

除了AutoGLM ,智谱AI还发布了GLM-4-Voice,一个新型的情感语音模型,具备高级情感理解和表达能力,是一款端到端的多模态语音模型。

这款模型实现了从文字到语音的无缝转换,不再需要传统的语音转文字再转语音的链式方案,从而减少信息损失与延迟。

智谱&GLM-1025-3

GLM-4-Voice 的核心特点包括:

  • 情感表达和共鸣:声音表现自然,可模拟不同的情感(如高兴、悲伤、害怕等)。
  • 调节语速:允许在同一对话中快速或慢速输出语音。
  • 多语言、多方言支持:支持中英文及多种地方方言(如粤语、重庆话、北京话等)。
  • 随时打断和灵活输入:能根据实时用户指令调整语音输出。
  • 视频通话结合:即将支持视频通话,真正实现“能看也能说”的AI助理。

GLM-4-Voice 的技术架构基于12.5Hz音频token建模,通过高效的预训练数据和流式思考架构,实现低延迟、端到端的语音理解和生成。这种设计大大提高了语音对话的流畅性和智能性,支持即时语音合成,最低只需输出20个token即可完成。

同时,GLM-4-Voice 发布即开源

代码仓库:

https://github.com/THUDM/GLM-4-Voice

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
615
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

RoboflowSports :跟踪检测和识别运动员行为 提供比赛实时分析

RoboflowSports :跟踪检测和识别运动员行为 提供比赛实时分析

400 VIEWS
2024年7月25日
VASA-1:一张静态图像 + 一段语音生成逼真的对话面部视频

VASA-1:一张静态图像 + 一段语音生成逼真的对话面部视频

924 VIEWS
2024年4月18日
ViViD:视频虚拟试穿技术 可以随意替换视频中人物的衣服

ViViD:视频虚拟试穿技术 可以随意替换视频中人物的衣服

675 VIEWS
2024年5月30日
Hebbia获得近1亿美元B轮融资  利用AI一次可以处理多达数百万份文档

Hebbia获得近1亿美元B轮融资 利用AI一次可以处理多达数百万份文档

294 VIEWS
2024年7月28日
Adobe Premiere Pro 推出多项新的生成式AI功能 大幅提高视频编辑效率

Adobe Premiere Pro 推出多项新的生成式AI功能 大幅提高视频编辑效率

303 VIEWS
2024年10月15日
Prompt 学习地图 13 | 框架思维 – ICIO 框架 清晰描述模型要执行的任务

Prompt 学习地图 13 | 框架思维 – ICIO 框架 清晰描述模型要执行的任务

100 VIEWS
2024年4月18日
Thinking-Claude:让 Claude 实现类似OpenAI o1 模型一样的高级推理模式

Thinking-Claude:让 Claude 实现类似OpenAI o1 模型一样的高级推理模式

1.2k VIEWS
2024年11月14日
2024Microsoft Build大会超全纪录 新的Phi-3多模态模型、Copilot Agents

2024Microsoft Build大会超全纪录 新的Phi-3多模态模型、Copilot Agents

226 VIEWS
2024年5月22日
最新泄露的细节显示 Google Pixel 9将带来更多 AI 功能 包括类似微软的Recall功能

最新泄露的细节显示 Google Pixel 9将带来更多 AI 功能 包括类似微软的Recall功能

164 VIEWS
2024年7月4日
iOS 18 推出了全新自定义选项 Apple Intelligence深度集成

iOS 18 推出了全新自定义选项 Apple Intelligence深度集成

997 VIEWS
2024年6月11日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版