Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Kyutai 发布全新的开源 AI 语音助手 Moshi 平替 OpenAI 的GPT 4o

by 小互
2024年7月4日
in XiaoHu.AI日报
0 0
0
0
SHARES
653
VIEWS
Share on FacebookShare on Twitter

Kyutai 研究实验室今天在巴黎发布了 Moshi AI语音助手,一个能与人类进行自然对话的AI语音助手,可以匹敌OpenAI 的GPT 4o的语音能力。该语音助手由8人团队经过6个月的时间开发,具备独特情感和AI互动能力。

Kyutai将公开Moshi的代码和模型权重,使研究人员和开发人员能够自由使用、改进和扩展这项技术。

7月4日 (3) 1
Moshi 的功能特点
  1. 语音交互能力:
    • 自然对话:Moshi能够进行自然、流畅且富有表现力的语音对话,模拟人类的语音交流方式。
    • 情感表达:其文本转语音(Text-to-Speech, TTS)能力在情感表达方面非常出色,能够呈现出丰富的情绪变化。
  2. 多功能应用:
    • 教练和伴侣:Moshi可以用作个人教练或伴侣,提供指导、支持和互动,帮助用户在不同情境下获得个性化建议和陪伴。
    • 角色扮演:具备角色扮演的能力,能够在互动过程中展现出极强的创造力和灵活性,适用于游戏、教育等场景。
  3. 实时互动:
    • 即时响应:在演示和互动过程中,Moshi能够快速响应用户的语音指令和提问,提供流畅的互动体验。
  4. 高效多模态处理:
    • 多模态学习和推理:Moshi具备处理和理解多种类型内容(如文本、声音、图像等)的能力,能够在不同内容之间进行有效的学习和推理。
  5. 技术开放性:
    • 代码和模型公开:Kyutai将公开Moshi的代码和模型权重,使研究人员和开发人员能够自由使用、改进和扩展这项技术。
    • 本地运行:Moshi可以本地安装和运行,确保在无网络环境下的安全性和稳定性。
7月4日 (4) 1
演示:Moshi模拟区太空探险故事互动…

在线申请测试:https://www.moshi.chat/

关于Kyutai

Kyutai是一个致力于AI开放研究的非营利实验室,由Iliad集团、CMA CGM和Schmidt Sciences于2023年11月成立。初创团队由六名顶级科学家组成,他们都曾在美国的大型科技实验室工作。Kyutai继续招聘顶级人才,还为研究硕士学位学生提供实习机会。现在该团队已有12名成员,并将在年底启动首批博士论文研究。研究探索新的一般用途模型,具备高能力。实验室目前特别研究多模态模型,即模型能够利用不同类型的内容(文本、声音、图像等)进行学习和推理。所有开发的模型、软件和实现其创建的技术知识都将免费分享。为开展工作和训练模型,Kyutai特别依赖Iliad集团子公司Scaleway提供的Nabu 23超算节点。

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
615
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Search4All :开源的 AI 搜索引擎 分分钟打造你的Perplexity AI搜索引擎

Search4All :开源的 AI 搜索引擎 分分钟打造你的Perplexity AI搜索引擎

222 VIEWS
2024年3月25日
Runway Act-One 使用教程 :仅通过单个视频和任意角色图像生成生动的表演动画

Runway Act-One 使用教程 :仅通过单个视频和任意角色图像生成生动的表演动画

316 VIEWS
2024年11月4日
ReVideo:允许用户对视频特定区域和视频对象的运动轨迹进行精确编辑

ReVideo:允许用户对视频特定区域和视频对象的运动轨迹进行精确编辑

222 VIEWS
2024年5月27日
ToucanTTS:支持语言种类最多的 TTS 模型 支持超过7000种语言的语音合成

ToucanTTS:支持语言种类最多的 TTS 模型 支持超过7000种语言的语音合成

542 VIEWS
2024年6月28日
李飞飞的空间智能公司World Labs正式成立 获得 2.3 亿美元融资 估值10亿美金

李飞飞的空间智能公司World Labs正式成立 获得 2.3 亿美元融资 估值10亿美金

322 VIEWS
2024年9月15日
Supertone Shift:实时语音变换器 将你的声音变成各种角色和性别的声音

Supertone Shift:实时语音变换器 将你的声音变成各种角色和性别的声音

1.2k VIEWS
2024年5月6日
Midjourney 大更新:新增外部图像编辑器、图像重纹理功能  编辑图像更轻松

Midjourney 大更新:新增外部图像编辑器、图像重纹理功能 编辑图像更轻松

619 VIEWS
2024年10月24日
通义千问发布Qwen1.5-110B 首款超1000亿参数模型

通义千问发布Qwen1.5-110B 首款超1000亿参数模型

183 VIEWS
2024年4月27日
ElevenLabs推出新的 AI 音频模型 能够根据文本生成各种音效和声音

ElevenLabs推出新的 AI 音频模型 能够根据文本生成各种音效和声音

233 VIEWS
2024年6月1日
JetMoE-8B:不到10万美元的训练成本 性能却超越LLaMA2-7B

JetMoE-8B:不到10万美元的训练成本 性能却超越LLaMA2-7B

104 VIEWS
2024年4月16日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版