Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home AI 工具

微软对Azure AI语音服务升级 发布9种更真实的AI语音

by 小互
2024年4月1日
in AI 工具
1 0
0
0
SHARES
5.4k
VIEWS
Share on FacebookShare on Twitter

微软对Azure AI语音服务的Personal Voice功能进行了升级,引入了新的零样本学习(zero-shot)的文本到语音(TTS)模型。与初始模型相比,这些新模型提高了合成语音的自然度,并更好地模仿了提示语音中的语音特征。

与为一般目的设计的语音相比,这些为对话优化的语音在读取对话和非正式文本时听起来更自然、更吸引人。它们甚至包括笑声和填充停顿等插入语,为虚拟对话增添了人性化的触感。

微软提供了超过400种神经语音,涵盖140多种语言和地区。这些文本到语音(TTS)语音可以快速为应用添加朗读功能,使其设计更加无障碍,或为聊天机器人赋予声音,提供更丰富的对话体验。此外,通过自定义神经语音功能,您可以轻松为您的业务创建品牌声音。

X2Twitter.com_1772580276788764672(720p)

功能特点

  1. 快速个性化语音创建:用户只需提供一小段自己的语音样本,Zero-shot TTS模型就能快速创建出能模仿该用户独特语音特征的AI语音。这一过程仅需几秒钟,极大简化了个性化语音的生成流程。

  2. 高度自然的语音输出:与早期的TTS模型相比,Zero-shot TTS模型生成的语音更加自然、流畅,并且能更好地捕捉到人类语音的细微差别,如语调、节奏和情感表达,使合成语音更加生动、接近真人。

  3. 支持多种语言和口音:这些模型支持生成100种以上不同语言的语音输出,甚至可以处理不同的地区口音,让用户以自己的声音“说出”多种语言,适用于多语种的全球应用场景。

  4. 用途广泛:Zero-shot TTS模型不仅可用于个人化的应用,如聊天机器人、个人助理或语音驱动的内容创建,也适合需要跨语种配音的娱乐、教育和媒体产业,比如用原声演员的声音为影视作品配音。

  5. 模型选择的灵活性:Azure AI 语音服务提供了多种Zero-shot TTS模型,以适应不同的应用场景需求。例如,“DragonLatestNeural”模型更注重语音的自然度和表现力,适合内容创作;而“PhoenixLatestNeural”模型则在保持发音准确性和低延迟的同时,增强了声音的相似度,适用于实时交互场景。

  6. 负责任的AI使用:鉴于合成语音技术可能被误用的风险,微软对Zero-shot TTS模型的使用实施了严格的指导原则和访问控制,确保技术的负责任部署和使用,保护个人和社会的权利。

应用场景包括:

  • 语音助手:创建个性化的语音助手体验。用户现在可以使用自己的声音,而不是依赖通用的声音,实现真正独特的体验。
  • 游戏:为玩家提供沉浸式体验,允许他们完全以自己独特的声音扮演角色。
  • 语言配音:扩展全球影响力,用演讲者的母语为内容配音,为观众提供无缝且愉悦的体验,无论他们位于何处。
  • 媒体和娱乐:为故事、有声书、播客、视频等创建易于使用的个人语音,使内容比以往任何时候都更加贴近和沉浸。
  • 语音翻译:打破语言障碍,改善沟通。允许会话参与者以他们真实的声音被听到,用各种语言进行。

详细信息:Zero-shot TTS模型

9种更真实的AI语音

微软还发布了9种更真实的AI语音,现在已经普遍可用,这些语音被优化用于对话,覆盖了多种语言,旨在为各种业务场景提供更好的选择和多样性。这些真实的语音非常适合任何需要逼真语音交云的应用,包括聊天机器人、语音助手、游戏、电子学习、娱乐等。

针对对话优化的语音在阅读对话和非正式文本时听起来更自然、更引人入胜,甚至包括笑声和填充暂停等插入语,为您的虚拟对话增添人性化的触感。

例如,Yellow.AI就在客户支持场景中使用了Ava语音。

duihua

新推出的多语言语音包括了针对对话风格的优化,扩展了微软在91种语言及其变种中传达内容的能力,体现了微软克服语言障碍、促进全球交流更加包容和无障碍的坚定承诺。

新的通用可用(GA)语音包括:

  • en-US-AvaMultilingualNeural
  • en-US-AndrewMultilingualNeural
  • en-US-EmmaMultilingualNeural
  • en-US-BrianMultilingualNeural
  • De-DE-FlorianMultilingualNeural去语言化–弗洛里亚多语种神经网络
  • De-DE-SeraphinaMultilingualNeuralDe-DE-Seraphina 多语种神经网络
  • Fr-FR-RemyMultilingualNeuralFr-FR-Remy 多语言神经网络
  • Fr-FR-VivienneMultilingualNeural法国-法国-维维安多语种神经网络
  • zh-CN-XiaoxiaoMultiligualNeural
041Area

与为一般目的设计的语音相比,这些为对话优化的语音在读取对话和非正式文本时听起来更自然、更吸引人。它们甚至包括笑声和填充停顿等插入语,为虚拟对话增添了人性化的触感。

微软还提供了超过400种神经语音,涵盖140多种语言和地区。

查看详细介绍以及演示效果

Area041

在线语音库

更新体验:https://ai.azure.com/explore/speech

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
476
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
331
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
444
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
276
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
607
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

Model Explorer:Google开放能理解和调试优化大语言模型的图形可视化工具

Model Explorer:Google开放能理解和调试优化大语言模型的图形可视化工具

145 VIEWS
2024年5月24日
OpenAI官方提示指南 获得更好结果的六种策略

OpenAI官方提示指南 获得更好结果的六种策略

218 VIEWS
2024年3月19日
Open Interpreter 推出01 App 能运行在各种硬件上 并通过语音控制来操作设备

Open Interpreter 推出01 App 能运行在各种硬件上 并通过语音控制来操作设备

400 VIEWS
2024年9月10日
Pika Lip Sync: 唇型同步功能向所有人开放

Pika Lip Sync: 唇型同步功能向所有人开放

176 VIEWS
2024年3月6日
Livekit推出一个开源的精准语音轮次检测模型 可精准识别用户是否说完话

Livekit推出一个开源的精准语音轮次检测模型 可精准识别用户是否说完话

203 VIEWS
2024年12月21日
Video-MME: 首个多模态大模型视频分析综合评估基准

Video-MME: 首个多模态大模型视频分析综合评估基准

847 VIEWS
2024年6月3日
OpenBioLLM-8B:基于 Llama-3-8B 微调训练的生物医学领域专门模型

OpenBioLLM-8B:基于 Llama-3-8B 微调训练的生物医学领域专门模型

149 VIEWS
2024年4月29日
ComfyUI-AdvancedLivePortrait:从静态照片中提取面部表情 并进行自由编辑调整 让图像动起来

ComfyUI-AdvancedLivePortrait:从静态照片中提取面部表情 并进行自由编辑调整 让图像动起来

447 VIEWS
2024年9月4日
School AI:让每个学生都有自己的聊天机器人 提高学习兴趣和效率

School AI:让每个学生都有自己的聊天机器人 提高学习兴趣和效率

415 VIEWS
2024年4月18日
Jina-ai/Reader:将任何网页URL转换为大语言模型友好的输入格式

Jina-ai/Reader:将任何网页URL转换为大语言模型友好的输入格式

800 VIEWS
2024年5月31日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版