Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Kyutai 发布全新的开源 AI 语音助手 Moshi 平替 OpenAI 的GPT 4o

by 小互
2024年7月4日
in XiaoHu.AI日报
0 0
0
0
SHARES
653
VIEWS
Share on FacebookShare on Twitter

Kyutai 研究实验室今天在巴黎发布了 Moshi AI语音助手,一个能与人类进行自然对话的AI语音助手,可以匹敌OpenAI 的GPT 4o的语音能力。该语音助手由8人团队经过6个月的时间开发,具备独特情感和AI互动能力。

Kyutai将公开Moshi的代码和模型权重,使研究人员和开发人员能够自由使用、改进和扩展这项技术。

7月4日 (3) 1
Moshi 的功能特点
  1. 语音交互能力:
    • 自然对话:Moshi能够进行自然、流畅且富有表现力的语音对话,模拟人类的语音交流方式。
    • 情感表达:其文本转语音(Text-to-Speech, TTS)能力在情感表达方面非常出色,能够呈现出丰富的情绪变化。
  2. 多功能应用:
    • 教练和伴侣:Moshi可以用作个人教练或伴侣,提供指导、支持和互动,帮助用户在不同情境下获得个性化建议和陪伴。
    • 角色扮演:具备角色扮演的能力,能够在互动过程中展现出极强的创造力和灵活性,适用于游戏、教育等场景。
  3. 实时互动:
    • 即时响应:在演示和互动过程中,Moshi能够快速响应用户的语音指令和提问,提供流畅的互动体验。
  4. 高效多模态处理:
    • 多模态学习和推理:Moshi具备处理和理解多种类型内容(如文本、声音、图像等)的能力,能够在不同内容之间进行有效的学习和推理。
  5. 技术开放性:
    • 代码和模型公开:Kyutai将公开Moshi的代码和模型权重,使研究人员和开发人员能够自由使用、改进和扩展这项技术。
    • 本地运行:Moshi可以本地安装和运行,确保在无网络环境下的安全性和稳定性。
7月4日 (4) 1
演示:Moshi模拟区太空探险故事互动…

在线申请测试:https://www.moshi.chat/

关于Kyutai

Kyutai是一个致力于AI开放研究的非营利实验室,由Iliad集团、CMA CGM和Schmidt Sciences于2023年11月成立。初创团队由六名顶级科学家组成,他们都曾在美国的大型科技实验室工作。Kyutai继续招聘顶级人才,还为研究硕士学位学生提供实习机会。现在该团队已有12名成员,并将在年底启动首批博士论文研究。研究探索新的一般用途模型,具备高能力。实验室目前特别研究多模态模型,即模型能够利用不同类型的内容(文本、声音、图像等)进行学习和推理。所有开发的模型、软件和实现其创建的技术知识都将免费分享。为开展工作和训练模型,Kyutai特别依赖Iliad集团子公司Scaleway提供的Nabu 23超算节点。

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Prompt 学习地图 27 | 理论&实践 – Meta Prompts 用提示词设计提示词

300 VIEWS
2024年6月12日
Jina AI 推出专门将原始 HTML 转换为干净的 Markdown 的小型语言模型

Jina AI 推出专门将原始 HTML 转换为干净的 Markdown 的小型语言模型

447 VIEWS
2024年9月13日
IDM-VTON:虚拟试衣技术 能够生成高度真实的虚拟试衣图像

IDM-VTON:虚拟试衣技术 能够生成高度真实的虚拟试衣图像

344 VIEWS
2024年4月25日
Freepik Designer:一个在线 AI 图像编辑器 几分钟内完成专业级别的图像设计

Freepik Designer:一个在线 AI 图像编辑器 几分钟内完成专业级别的图像设计

721 VIEWS
2024年6月8日
ElevenLabs 推出音乐生成模型 ElevenLabs Music 可直接通过文本提示生成完整音乐

ElevenLabs 推出音乐生成模型 ElevenLabs Music 可直接通过文本提示生成完整音乐

396 VIEWS
2024年5月10日
DriveVLM:自动驾驶与视觉语言模型的融合 增强智能汽车场景理解和规划能力

DriveVLM:自动驾驶与视觉语言模型的融合 增强智能汽车场景理解和规划能力

174 VIEWS
2024年6月24日
One-Click Creative Template:创意模型 用一张卡通图片总结4张真实人物照片

One-Click Creative Template:创意模型 用一张卡通图片总结4张真实人物照片

1.5k VIEWS
2024年10月14日
Llama3 中文综合资源库 集合了与Llama3 模型相关的各种中文资料

Llama3 中文综合资源库 集合了与Llama3 模型相关的各种中文资料

755 VIEWS
2024年5月11日
PROTEUS:斯坦福大学开发的 通过单张图片让人物进行实时唱歌和说话的AI

PROTEUS:斯坦福大学开发的 通过单张图片让人物进行实时唱歌和说话的AI

580 VIEWS
2024年6月14日
阿里云推出 Qwen2.5-Turbo 专为处理长文本场景设计 支持 100 万 Token 的上下文

阿里云推出 Qwen2.5-Turbo 专为处理长文本场景设计 支持 100 万 Token 的上下文

179 VIEWS
2024年11月19日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版