XiaoHu.AI学院

No Result

View All Result

Login

XiaoHu.AI学院

No Result

View All Result

Home AI 工具

微软对Azure AI语音服务升级发布9种更真实的AI语音

by 小互

2024年4月1日

in AI 工具

0

SHARES

5.4k

VIEWS

Share on Facebook Share on Twitter

微软对Azure AI语音服务的Personal Voice功能进行了升级，引入了新的零样本学习（zero-shot）的文本到语音（TTS）模型。与初始模型相比，这些新模型提高了合成语音的自然度，并更好地模仿了提示语音中的语音特征。

与为一般目的设计的语音相比，这些为对话优化的语音在读取对话和非正式文本时听起来更自然、更吸引人。它们甚至包括笑声和填充停顿等插入语，为虚拟对话增添了人性化的触感。

微软提供了超过400种神经语音，涵盖140多种语言和地区。这些文本到语音（TTS）语音可以快速为应用添加朗读功能，使其设计更加无障碍，或为聊天机器人赋予声音，提供更丰富的对话体验。此外，通过自定义神经语音功能，您可以轻松为您的业务创建品牌声音。

功能特点

快速个性化语音创建：用户只需提供一小段自己的语音样本，Zero-shot TTS模型就能快速创建出能模仿该用户独特语音特征的AI语音。这一过程仅需几秒钟，极大简化了个性化语音的生成流程。
高度自然的语音输出：与早期的TTS模型相比，Zero-shot TTS模型生成的语音更加自然、流畅，并且能更好地捕捉到人类语音的细微差别，如语调、节奏和情感表达，使合成语音更加生动、接近真人。
支持多种语言和口音：这些模型支持生成100种以上不同语言的语音输出，甚至可以处理不同的地区口音，让用户以自己的声音“说出”多种语言，适用于多语种的全球应用场景。
用途广泛：Zero-shot TTS模型不仅可用于个人化的应用，如聊天机器人、个人助理或语音驱动的内容创建，也适合需要跨语种配音的娱乐、教育和媒体产业，比如用原声演员的声音为影视作品配音。
模型选择的灵活性：Azure AI 语音服务提供了多种Zero-shot TTS模型，以适应不同的应用场景需求。例如，“DragonLatestNeural”模型更注重语音的自然度和表现力，适合内容创作；而“PhoenixLatestNeural”模型则在保持发音准确性和低延迟的同时，增强了声音的相似度，适用于实时交互场景。
负责任的AI使用：鉴于合成语音技术可能被误用的风险，微软对Zero-shot TTS模型的使用实施了严格的指导原则和访问控制，确保技术的负责任部署和使用，保护个人和社会的权利。

应用场景包括：

语音助手：创建个性化的语音助手体验。用户现在可以使用自己的声音，而不是依赖通用的声音，实现真正独特的体验。
游戏：为玩家提供沉浸式体验，允许他们完全以自己独特的声音扮演角色。
语言配音：扩展全球影响力，用演讲者的母语为内容配音，为观众提供无缝且愉悦的体验，无论他们位于何处。
媒体和娱乐：为故事、有声书、播客、视频等创建易于使用的个人语音，使内容比以往任何时候都更加贴近和沉浸。
语音翻译：打破语言障碍，改善沟通。允许会话参与者以他们真实的声音被听到，用各种语言进行。

详细信息：Zero-shot TTS模型

9种更真实的AI语音

微软还发布了9种更真实的AI语音，现在已经普遍可用，这些语音被优化用于对话，覆盖了多种语言，旨在为各种业务场景提供更好的选择和多样性。这些真实的语音非常适合任何需要逼真语音交云的应用，包括聊天机器人、语音助手、游戏、电子学习、娱乐等。

针对对话优化的语音在阅读对话和非正式文本时听起来更自然、更引人入胜，甚至包括笑声和填充暂停等插入语，为您的虚拟对话增添人性化的触感。

例如，Yellow.AI就在客户支持场景中使用了Ava语音。

新推出的多语言语音包括了针对对话风格的优化，扩展了微软在91种语言及其变种中传达内容的能力，体现了微软克服语言障碍、促进全球交流更加包容和无障碍的坚定承诺。

新的通用可用（GA）语音包括：

en-US-AvaMultilingualNeural
en-US-AndrewMultilingualNeural
en-US-EmmaMultilingualNeural
en-US-BrianMultilingualNeural
De-DE-FlorianMultilingualNeural去语言化–弗洛里亚多语种神经网络
De-DE-SeraphinaMultilingualNeuralDe-DE-Seraphina 多语种神经网络
Fr-FR-RemyMultilingualNeuralFr-FR-Remy 多语言神经网络
Fr-FR-VivienneMultilingualNeural法国-法国-维维安多语种神经网络
zh-CN-XiaoxiaoMultiligualNeural

与为一般目的设计的语音相比，这些为对话优化的语音在读取对话和非正式文本时听起来更自然、更吸引人。它们甚至包括笑声和填充停顿等插入语，为虚拟对话增添了人性化的触感。

微软还提供了超过400种神经语音，涵盖140多种语言和地区。

查看详细介绍以及演示效果

在线语音库

更新体验：https://ai.azure.com/explore/speech

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

AI 工具

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

AI 论文

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

2024年12月23日

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

AI 项目

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

2024年12月22日

No Result

View All Result

Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?

Unlock left : 0

Are you sure want to cancel subscription?