Kyutai 发布全新的开源 AI 语音助手 Moshi 平替 OpenAI 的GPT 4o

Kyutai 研究实验室今天在巴黎发布了 Moshi AI语音助手，一个能与人类进行自然对话的AI语音助手，可以匹敌OpenAI 的GPT 4o的语音能力。该语音助手由8人团队经过6个月的时间开发，具备独特情感和AI互动能力。

Kyutai将公开Moshi的代码和模型权重，使研究人员和开发人员能够自由使用、改进和扩展这项技术。

Moshi 的功能特点

语音交互能力：
- 自然对话：Moshi能够进行自然、流畅且富有表现力的语音对话，模拟人类的语音交流方式。
- 情感表达：其文本转语音（Text-to-Speech, TTS）能力在情感表达方面非常出色，能够呈现出丰富的情绪变化。
多功能应用：
- 教练和伴侣：Moshi可以用作个人教练或伴侣，提供指导、支持和互动，帮助用户在不同情境下获得个性化建议和陪伴。
- 角色扮演：具备角色扮演的能力，能够在互动过程中展现出极强的创造力和灵活性，适用于游戏、教育等场景。
实时互动：
- 即时响应：在演示和互动过程中，Moshi能够快速响应用户的语音指令和提问，提供流畅的互动体验。
高效多模态处理：
- 多模态学习和推理：Moshi具备处理和理解多种类型内容（如文本、声音、图像等）的能力，能够在不同内容之间进行有效的学习和推理。
技术开放性：
- 代码和模型公开：Kyutai将公开Moshi的代码和模型权重，使研究人员和开发人员能够自由使用、改进和扩展这项技术。
- 本地运行：Moshi可以本地安装和运行，确保在无网络环境下的安全性和稳定性。

演示：Moshi模拟区太空探险故事互动…

在线申请测试：https://www.moshi.chat/

关于Kyutai

Kyutai是一个致力于AI开放研究的非营利实验室，由Iliad集团、CMA CGM和Schmidt Sciences于2023年11月成立。初创团队由六名顶级科学家组成，他们都曾在美国的大型科技实验室工作。Kyutai继续招聘顶级人才，还为研究硕士学位学生提供实习机会。现在该团队已有12名成员，并将在年底启动首批博士论文研究。研究探索新的一般用途模型，具备高能力。实验室目前特别研究多模态模型，即模型能够利用不同类型的内容（文本、声音、图像等）进行学习和推理。所有开发的模型、软件和实现其创建的技术知识都将免费分享。为开展工作和训练模型，Kyutai特别依赖Iliad集团子公司Scaleway提供的Nabu 23超算节点。