Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

字节跳动发布一些列新的模型 包括基于DIT的视频生成模型、音乐模型,同声传译模型等

by 小互
2024年9月24日
in XiaoHu.AI日报
0 0
0
字节跳动发布一些列新的模型 包括基于DIT的视频生成模型、音乐模型,同声传译模型等
0
SHARES
969
VIEWS
Share on FacebookShare on Twitter
字节跳动今天发布一些列新的模型。包括音乐模型,同声传译模型、文生图2.0模型、新的基于DIT的视频生成模型、豆包通用模型pro、语音合成模型。
 
还发布了图像转视频口型同步模型和文本、音频驱动的数字人模型。
 
这些功能将全部集成到最新版的豆包、即梦AI和剪映中…
其中,主力模型“豆包通用模型pro”最新版本在各维度上国内领先。
 
截至到9月,豆包大模型的日均 tokens 使用量已经超过1.3万亿,4个月的时间里 tokens 整体增长超过了10倍。在多模态方面,豆包·文生图模型日均生成图片5,000万张,此外,豆包目前日均处理语音85万小时。

豆包·视频生成模型:

基于DIT架构的视频生成模型

豆包视频模型包括 PixelDance 模型和 Seaweed 模型两种。

9月24日 1

豆包视频生成模型能够实现复杂的多主体互动。这意味着多个视频中的人物可以在不同镜头中自然地完成复杂的互动动作,人物的样貌、服装和细节在不同镜头的切换下仍然保持一致,接近真实拍摄的效果。

这种一致性得益于 DiT架构(融合计算单元)的应用,使得视频生成在动态和运镜之间可以灵活切换,支持多种镜头语言,如变焦、环绕、平摇、缩放、目标跟随等。

  • 精准的语义理解:模型能够理解复杂的用户指令(prompt),生成多个动作和主体之间的交互视频。可以处理具有时间顺序和复杂结构的任务,如生成时序性动作和多个主体互动的场景。

  • 强大的动态表现和镜头切换:
    • 豆包·视频生成模型突破了传统PPT动画的局限,能够生成流畅的动态视频,并支持复杂的镜头操作,如变焦、环绕、平摇、缩放和目标跟踪等。
    • 模型具备灵活的视角控制能力,带来更贴近现实的视觉体验,能够在不同场景中轻松切换镜头。

 

0bc3waaaaaaawuaf34psyjtfbmgdacyaaaaa.f10002
  • 多镜头一致性:
    • 模型解决了多镜头切换时的一致性问题,支持在一个 prompt 中实现多个镜头的平滑切换,同时保持主体、风格和氛围的一致性。它可以在短短10秒内生成一个完整故事的视频,从而大幅提升生成视频的叙事能力。
    • PixelDance模型成功攻克了多镜头切换时难以保持一致性的困扰,可10秒讲述一个起承转合的故事。在一个prompt的多个镜头切换时,保持主体,风格,氛围和逻辑的一致性,实现导演自由。
      0bc3vmabqaaahian7t7rlbtfbk6ddcvqagaa.f10002
      0bc3c4aauaaadaam5axrfztfaf6dbilqacqa.f10002
      0bc3neabsaaayeakbixreztfa2oddfuqagia.f10002

      0bc3j4abuaaaiyafqz7sevtfat6ddjhqagqa.f10002

以上视频来自卡兹克授权发布

  • 高保真和多风格支持:
    • 豆包·视频生成模型支持多种视频风格,包括黑白风格、3D动画、2D动画、国画等多种表现形式。画面比例方面,模型支持1:1、3:4、4:3、16:9、9:16、21:9六种比例,适应不同终端设备和需求,如手机竖屏、电影画幅等。
    • 通过高保真的图像质量,模型能够为生成的视频提供卓越的视觉效果。

应用场景:

  1. 电商营销:
    • 豆包视频生成模型能够快速生成3D动态商品展示,支持根据节日、主题替换背景和风格,生成不同尺寸的营销视频,提升电商企业的营销效率。
  2. 动画教育:
    • 模型可以大幅降低动画制作成本,使得教育场景中的童话故事和互动内容更加生动、真实。
  3. 城市文旅、微电影、音乐MV:
    • 豆包模型可应用于城市宣传、文旅营销和短片制作,通过高效生成多风格视频,大幅提升创意内容的制作效率。

一些其他案例

VGFM V0.2 HQ_一只活泼的小猫正向镜头奔来。 (3)
154_3
129_2
27.0.A vibrant green sea turtle is
98_6
21_4
11_1
100_1
125_3

豆包·音乐模型:

能够生成高质量的音乐作品,为音乐创作提供便利。

0bc3f4abqaaaryabp6psjntfal6ddaxqagaa.f10002

豆包·同声传译模型:

支持多语言的实时同声传译,进一步增强了语言模型在跨语言场景中的应用能力。

0bc3q4abqaaakmaeevxrlbtfbb6ddcdqagaa.f10002

豆包视频模型体验地址:https://jimeng.jianying.com/ai-tool/video/generate

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
338
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
450
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
279
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
617
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
429

Recommendeds

ElevenLabs 推出 Audio Native 自动将你的内容转换为播客

ElevenLabs 推出 Audio Native 自动将你的内容转换为播客

321 VIEWS
2024年5月18日
Perplexity 推出全新 AI 驱动购物助手:Shop Like a Pro 支持搜索结果一键下单

Perplexity 推出全新 AI 驱动购物助手:Shop Like a Pro 支持搜索结果一键下单

260 VIEWS
2024年11月19日
Omne:通过多智能体合作 解决AI长期记忆能力并提高AI推理能力

Omne:通过多智能体合作 解决AI长期记忆能力并提高AI推理能力

413 VIEWS
2024年10月25日
麻省理工学院开发出能提前5年预测出出乳腺癌发病的AI模型

麻省理工学院开发出能提前5年预测出出乳腺癌发病的AI模型

248 VIEWS
2024年7月30日
DreamWalk:在图像生成中 实现对风格和内容的精细控制

DreamWalk:在图像生成中 实现对风格和内容的精细控制

59 VIEWS
2024年4月9日
Chai-1 :一个用于预测分子结构多模态基础模型 解码生命的分子相互作用

Chai-1 :一个用于预测分子结构多模态基础模型 解码生命的分子相互作用

141 VIEWS
2024年9月11日
最新泄露的细节显示 Google Pixel 9将带来更多 AI 功能 包括类似微软的Recall功能

最新泄露的细节显示 Google Pixel 9将带来更多 AI 功能 包括类似微软的Recall功能

164 VIEWS
2024年7月4日
Prompt 学习地图 05 | 编写清晰地说明 – 指定任务所需的步骤

Prompt 学习地图 05 | 编写清晰地说明 – 指定任务所需的步骤

88 VIEWS
2024年3月25日
Xiaohu.AI 会员权益

Xiaohu.AI 会员权益

267 VIEWS
2024年4月19日
RayDINO :能够对胸部X光片进行全面分析并识别常见疾病的视觉模型

RayDINO :能够对胸部X光片进行全面分析并识别常见疾病的视觉模型

356 VIEWS
2024年5月11日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版