Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Hume AI推出了一款名为OCTAVE（全能文本与语音引擎），这是一款具有开创性的生成模型具备实时生成语音和人格特质的能力。

OCTAVE结合了EVI 2模型以及 OpenAI 的语音引擎、Elevenlab 的 TTS 语音设计和 Google Deepmind 的 NotebookLM 等系统的能力。可以从简单的文本描述或5秒语音录音中生成丰富的语音和人格特质，包括性别、年龄、口音、情绪语调及职业特定说话风格等。

它支持多角色交互、实时对话、以及从短录音中提取并克隆声线与个性。

核心能力

从文本到语音的丰富生成能力：
- 多维属性控制：
  - OCTAVE能够根据简单的文本描述生成高度个性化的语音输出，包括情感语调、性别、年龄、口音等属性。
  - 支持生成带有特定属性的语音，如性别（男性、女性）、年龄（儿童、青年、老年）、口音（美式英语、英式英语等）。
  - 调整语调和节奏来表现不同的情绪和个性。
- 场景适应性：
  - 模拟特定职业的语言风格（如老师的耐心语气、医生的专业语调）。
  - 对应上下文调整语音风格，增强自然对话感。
    
    使用“学术巫师导师”这样的提示，OCTAVE 不仅生成高质量的声音，还创造了新的个性、口音、表情和伴随的语言——不到 300 毫秒
语音克隆：
- 快速学习：
  - OCTAVE可以从仅5秒的语音录音中提取发音特征，克隆声线和说话风格。
  - 可保留原声线的个性化特点，同时根据需要添加新的情感特质。
- 动态调整：
  - 克隆的语音不仅能匹配原有声线，还能根据上下文动态调整语音的语调、语速和情感，使其更符合对话需求。
- 地域化口音：
  - 可生成带有地域特点的语音，比如印度英语、澳大利亚英语等，提升本地化体验。
    
    从一个非常简短的音频片段（约 5 秒），OCTAVE 不仅模仿了说话者的声音，还在很大程度上克隆了他们的个性
实时交互支持：
- 即时响应：
  - 能在毫秒级别完成语音生成，实现真正的实时对话。
  - 支持实时对话生成，允许动态调整生成内容。
  - 能够结合用户输入的内容即时改变语音和语气。
- 实时调控：
  - 用户或开发者可以动态调整生成语音的属性（如切换角色、调整语调），实现灵活的交互体验。
多角色对话生成：
- 角色独立性：
  - 支持多个虚拟角色的语音生成，角色之间的语音风格、情绪和口音可以完全不同。
  - 在一个会话中同时生成多个角色的语音，模拟真实的多方对话。
- 场景自动化：
  - 适合复杂对话场景，比如游戏剧情对话或多人语音教育内容。
  - 在实时对话中轻松切换不同角色的语音风格。
    
    OCTAVE 可以在实时对话中生成多个一致的 AI 角色
情绪和人格建模：
- 情绪细腻表达：
  - 通过EVI 2（Hume AI的情感建模技术），OCTAVE能够生成丰富多样的情绪语音，包括愤怒、兴奋、悲伤、平静等。
  - 能捕捉微妙的语音变化，并通过不同情绪语调来增强自然交互感，表现复杂的情绪。
  - 在理解文本语义的基础上生成语音，与当前主流语言模型（如GPT系列）的语言理解能力相当。
- 人格化建模：
  - 除了语音外，还能模仿特定性格的语言表达方式，比如乐观、严谨或幽默。