Meta发布 Meta Spirit LM 一个可以在语音和文本之间进行无缝转换的多模态语音模型

Meta Spirit LM 是Meta推出的一个开源的 多模态语言模型 ，其设计目的是能够在 语音 和 文本 之间进行无缝转换。它通过结合语音和文本数据，支持跨模态的生成任务。 也就是它能够听懂语音，把它变成文字；也可以根据文字生成语音，并且能保持语音中的情感和语气，使生成的语音更加自然生动。可以在文本和语音之间来回转换。 语音和文字互相转换 ： 它可以同时处理语音和文字数据。例如，它能够把说话的内容转成文字（就像字幕一样），也可以把文字变成带有情感的语音（像机器人讲话一样）。 两种模式 ： Base版本 ：可以处理语音的基本转换，适合一般的语音识别和生成任务。 Expressive版本 ：使用 音调和风格标记 （pitch and style tokens）来捕捉语音中的情感，如兴奋、愤怒、惊讶等，并生成带有这种情感的语音，使得生成的语音更加自然、真实。可以根据语音中的情感（如开心、愤怒、惊讶等）生成带有情感的语音，使机器说话更加自然。 [video width="720" height="720" mp4="https://img.xiaohu.ai/2024/10/twittervid.com_AIatMeta_942d6e.mp4" preload="auto"][/video] 主要功能 语音与文本生成 ： SPIRIT-LM 能够生成文本或语音序列，输入可以是文本、语音或二者的组合。模型能够根据输入模式切换生成模式。例如，它能够从文本生成语音，也能够根据语音输入生成相应的文本。 跨模态任务 ： 模型可以执行多种跨模态任务，包括： 自动语音识别（ASR） ：将语音输入转换为文本输出。 文本转语音（TTS） ：将文本输入转换为语音输出。 语音与文本的混合生成 ：根据输入的模式自由生成文本或语音，并能够在生成过程中切换模态。 少样本学习 ： SPIRIT-LM 支持通过少量训练样本进行任务学习，特别是在跨模态任务中，它无需大量数据就可以执行诸如文本生成、语音生成、分类等复杂任务。 情感保持 ： SPIRIT-LM 能够在文本或语音输入中保留情感特征，并在生成的文本或语音中保留这种情感表达。这使得模型在情感丰富的对话、情感识别等任务中表现优异。 跨模态情感生成 ： SPIRIT-LM-EXPRESSIVE 版本特别关注语音中的情感表达，通过使用音调和风格单元，生成的语音不仅能传递语义，还能传递情感。这种功能使得它非常适合用于需要丰富语音表达的场景，如虚拟助手、语音生成等。 模型的工作机制： SPIRIT-LM 的输入可以是纯文本、纯语音或者文本和语音的混合序列。模型通过交替训练语音和文本数据，使其能够在生成时无缝切换两种模态。 模型采用了一种词级别的交替方法来处理语音和文本。在训练过程中，模型会随机在对齐的语音-文本序列中的单词边界处切换模态，使得语音和文本混合成为一个连续的标记序列。 通过这种跨模态的训练，模型不仅能够生成纯文本或纯语音，还能在跨模态转换任务中表现出色，如语音转文本（ASR）、文本转语音（TTS）、情感语音生成等。 核心优势： 跨模态生成能力 ：SPIRIT-LM可以在文本和语音之间流畅地进行转换，生成内容能够在这两种模态中自由切换。 少样本学习 ：模型具有强大的少样本学习能力，能够通过少量示例学习新任务，并在语音识别、文本生成等任务中表现出色。 情感与表现力 ：特别是SPIRIT-LM-EXPRESSIVE版本，通过增加音调和风格单元，能够生成更加富有情感和表现力的语音，保持文本和语音之间的情感一致性。 案例展示 SPIRIT-LM 提供了多个生成案例，展示了其跨模态生成和情感表达的能力。 跨模态生成案例 输入（文本提示） ：“The largest country in the world is...” 生成（文本继续） ：模型会生成后续文本，例如“the northwest corner of Wyoming. It is located in the Greater Yellowstone area...” 生成（语音继续） ：如果指定语音生成，模型将使用语音模式继续生成与输入文本相关的内容。 输入（文本提示） ：“Here's a story about a llama that can speak...” 生成（语音继续） ：SPIRIT-LM 通过语音生成方式，继续故事情节，能够保持输入文本的连贯性和语义一致性。 [video width="1520" height="1080" mp4="https://img.xiaohu.ai/2024/10/1019Area.mp4"][/video] 情感表现生成案例（SPIRIT-LM-EXPRESSIVE） 在 SPIRIT-LM-EXPRESSIVE 中，模型能够根据输入的情感信息，生成具有相应情感的语音或文本。以下是一些例子： 输入（情感语音提示） ：“I am absolutely thrilled to be embarking on this new journey...” 生成（语音继续） ：模型生成语音时保持了输入的情感色彩，延续了兴奋的情感基调。 输入（愤怒情感的文本提示） ：“This is unbelievable! My brand new car, ruined!...” 生成（文本或语音继续） ：模型能够生成表达愤怒的文本或语音，保持一致的情感语调。 输入（悲伤情感的语音提示） ：“I can't believe she's gone. I feel so lost without her...” 生成（语音继续） ：模型继续生成带有悲伤情感的语音，传递出深刻的情感。 [video width="1740" height="1080" mp4="https://img.xiaohu.ai/2024/10/10192Area.mp4"][/video] 多样化情感风格 SPIRIT-LM-EXPRESSIVE 版本不仅能够理解情感，还能够通过不同的音调和风格生成具有表现力的语音。例如，通过改变输入语音的语调和风格，模型能够生成富有不同情感色彩的继续内容，如“愤怒”、“悲伤”或“兴奋”等。 [video width="2168" height="1080" mp4="https://img.xiaohu.ai/2024/10/Area1019.mp4"][/video] 论文： https://arxiv.org/abs/2402.05755 GitHub： https://github.com/facebookresearch/spiritlm 案例展示： https://speechbot.github.io/spiritlm/

Menu

分类目录

Meta发布 Meta Spirit LM 一个可以在语音和文本之间进行无缝转换的多模态语音模型

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

Google发布全球185个各大企业的生成式AI实际应用落地案例

AnyV2V：无需训练可以与任何模型集成的视频到视频编辑框架

成立两年首次亮相就放王炸 MiniMax发布三款模型语音模型、音乐模型和类似Sora视频模型

Ferret-UI：苹果开发出能“看懂”手机屏幕上并能执行任务的多模态模型

StreamV2V：实时视频转换的工具可以进行视频实时换脸和风格转换

Prompt 学习地图 12 | 编写策略 – 给 ChatGPT 时间“思考”

Creatie AI：AI驱动的产品设计工具几分钟之内设计出一个网站或程序

VideoSwap：替换视频中的人物、物体同时保持视频背景不变

OpenVoice：轻松克隆任何声音用多种语言说话并可控制情感口音

Midjourney不同相机角度的使用教程提高图像摄影技巧

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

Meta发布 Meta Spirit LM 一个可以在语音和文本之间进行无缝转换的多模态语音模型

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?