Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home AI 工具

微软对Azure AI语音服务升级 发布9种更真实的AI语音

by 小互
2024年4月1日
in AI 工具
1 0
0
0
SHARES
5.4k
VIEWS
Share on FacebookShare on Twitter

微软对Azure AI语音服务的Personal Voice功能进行了升级,引入了新的零样本学习(zero-shot)的文本到语音(TTS)模型。与初始模型相比,这些新模型提高了合成语音的自然度,并更好地模仿了提示语音中的语音特征。

与为一般目的设计的语音相比,这些为对话优化的语音在读取对话和非正式文本时听起来更自然、更吸引人。它们甚至包括笑声和填充停顿等插入语,为虚拟对话增添了人性化的触感。

微软提供了超过400种神经语音,涵盖140多种语言和地区。这些文本到语音(TTS)语音可以快速为应用添加朗读功能,使其设计更加无障碍,或为聊天机器人赋予声音,提供更丰富的对话体验。此外,通过自定义神经语音功能,您可以轻松为您的业务创建品牌声音。

X2Twitter.com_1772580276788764672(720p)

功能特点

  1. 快速个性化语音创建:用户只需提供一小段自己的语音样本,Zero-shot TTS模型就能快速创建出能模仿该用户独特语音特征的AI语音。这一过程仅需几秒钟,极大简化了个性化语音的生成流程。

  2. 高度自然的语音输出:与早期的TTS模型相比,Zero-shot TTS模型生成的语音更加自然、流畅,并且能更好地捕捉到人类语音的细微差别,如语调、节奏和情感表达,使合成语音更加生动、接近真人。

  3. 支持多种语言和口音:这些模型支持生成100种以上不同语言的语音输出,甚至可以处理不同的地区口音,让用户以自己的声音“说出”多种语言,适用于多语种的全球应用场景。

  4. 用途广泛:Zero-shot TTS模型不仅可用于个人化的应用,如聊天机器人、个人助理或语音驱动的内容创建,也适合需要跨语种配音的娱乐、教育和媒体产业,比如用原声演员的声音为影视作品配音。

  5. 模型选择的灵活性:Azure AI 语音服务提供了多种Zero-shot TTS模型,以适应不同的应用场景需求。例如,“DragonLatestNeural”模型更注重语音的自然度和表现力,适合内容创作;而“PhoenixLatestNeural”模型则在保持发音准确性和低延迟的同时,增强了声音的相似度,适用于实时交互场景。

  6. 负责任的AI使用:鉴于合成语音技术可能被误用的风险,微软对Zero-shot TTS模型的使用实施了严格的指导原则和访问控制,确保技术的负责任部署和使用,保护个人和社会的权利。

应用场景包括:

  • 语音助手:创建个性化的语音助手体验。用户现在可以使用自己的声音,而不是依赖通用的声音,实现真正独特的体验。
  • 游戏:为玩家提供沉浸式体验,允许他们完全以自己独特的声音扮演角色。
  • 语言配音:扩展全球影响力,用演讲者的母语为内容配音,为观众提供无缝且愉悦的体验,无论他们位于何处。
  • 媒体和娱乐:为故事、有声书、播客、视频等创建易于使用的个人语音,使内容比以往任何时候都更加贴近和沉浸。
  • 语音翻译:打破语言障碍,改善沟通。允许会话参与者以他们真实的声音被听到,用各种语言进行。

详细信息:Zero-shot TTS模型

9种更真实的AI语音

微软还发布了9种更真实的AI语音,现在已经普遍可用,这些语音被优化用于对话,覆盖了多种语言,旨在为各种业务场景提供更好的选择和多样性。这些真实的语音非常适合任何需要逼真语音交云的应用,包括聊天机器人、语音助手、游戏、电子学习、娱乐等。

针对对话优化的语音在阅读对话和非正式文本时听起来更自然、更引人入胜,甚至包括笑声和填充暂停等插入语,为您的虚拟对话增添人性化的触感。

例如,Yellow.AI就在客户支持场景中使用了Ava语音。

duihua

新推出的多语言语音包括了针对对话风格的优化,扩展了微软在91种语言及其变种中传达内容的能力,体现了微软克服语言障碍、促进全球交流更加包容和无障碍的坚定承诺。

新的通用可用(GA)语音包括:

  • en-US-AvaMultilingualNeural
  • en-US-AndrewMultilingualNeural
  • en-US-EmmaMultilingualNeural
  • en-US-BrianMultilingualNeural
  • De-DE-FlorianMultilingualNeural去语言化–弗洛里亚多语种神经网络
  • De-DE-SeraphinaMultilingualNeuralDe-DE-Seraphina 多语种神经网络
  • Fr-FR-RemyMultilingualNeuralFr-FR-Remy 多语言神经网络
  • Fr-FR-VivienneMultilingualNeural法国-法国-维维安多语种神经网络
  • zh-CN-XiaoxiaoMultiligualNeural
041Area

与为一般目的设计的语音相比,这些为对话优化的语音在读取对话和非正式文本时听起来更自然、更吸引人。它们甚至包括笑声和填充停顿等插入语,为虚拟对话增添了人性化的触感。

微软还提供了超过400种神经语音,涵盖140多种语言和地区。

查看详细介绍以及演示效果

Area041

在线语音库

更新体验:https://ai.azure.com/explore/speech

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
615
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

MagicClothing:根据文本提示定制生成穿着特定服装的人物图像

MagicClothing:根据文本提示定制生成穿着特定服装的人物图像

294 VIEWS
2024年4月17日
@MKBHD :如何在 54 分 19 秒 20 毫秒内制作高质量油管视频

@MKBHD :如何在 54 分 19 秒 20 毫秒内制作高质量油管视频

892 VIEWS
2024年10月15日
MedSAM-2:基于SAM-2 的能够处理多种2D和3D医学图像的模型

MedSAM-2:基于SAM-2 的能够处理多种2D和3D医学图像的模型

327 VIEWS
2024年8月6日
Roblox 展示了新的 3D AI 工具 实现与游戏玩法直接集成的实时世界构建

Roblox 展示了新的 3D AI 工具 实现与游戏玩法直接集成的实时世界构建

379 VIEWS
2024年9月8日
Glyph-ByT5:提高图像生成中文本渲染的准确性 提升近90%

Glyph-ByT5:提高图像生成中文本渲染的准确性 提升近90%

128 VIEWS
2024年6月18日
2个包含 24000GPU的集群 Meta 正在打造一套超大规模的人工智能计算平台

2个包含 24000GPU的集群 Meta 正在打造一套超大规模的人工智能计算平台

20 VIEWS
2024年3月13日
Google发明了一种新型的模型窃取攻击方法 成功攻破ChatGPT

Google发明了一种新型的模型窃取攻击方法 成功攻破ChatGPT

65 VIEWS
2024年3月12日
Upwork 研究报告:96%的高管希望AI工具能提高企业效率 而71%的员工却感到适得其反

Upwork 研究报告:96%的高管希望AI工具能提高企业效率 而71%的员工却感到适得其反

171 VIEWS
2024年7月30日
宇树科技发布 Unitree G1 人形机器人 售价9.9万元

宇树科技发布 Unitree G1 人形机器人 售价9.9万元

390 VIEWS
2024年5月13日
Meta AI推出 Meta MovieGen AI 视频生成模型 抛弃扩散模型 使用Transformer架构

Meta AI推出 Meta MovieGen AI 视频生成模型 抛弃扩散模型 使用Transformer架构

479 VIEWS
2024年10月5日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版