Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

字节跳动发布一些列新的模型 包括基于DIT的视频生成模型、音乐模型,同声传译模型等

by 小互
2024年9月24日
in XiaoHu.AI日报
0 0
0
字节跳动发布一些列新的模型 包括基于DIT的视频生成模型、音乐模型,同声传译模型等
0
SHARES
969
VIEWS
Share on FacebookShare on Twitter
字节跳动今天发布一些列新的模型。包括音乐模型,同声传译模型、文生图2.0模型、新的基于DIT的视频生成模型、豆包通用模型pro、语音合成模型。
 
还发布了图像转视频口型同步模型和文本、音频驱动的数字人模型。
 
这些功能将全部集成到最新版的豆包、即梦AI和剪映中…
其中,主力模型“豆包通用模型pro”最新版本在各维度上国内领先。
 
截至到9月,豆包大模型的日均 tokens 使用量已经超过1.3万亿,4个月的时间里 tokens 整体增长超过了10倍。在多模态方面,豆包·文生图模型日均生成图片5,000万张,此外,豆包目前日均处理语音85万小时。

豆包·视频生成模型:

基于DIT架构的视频生成模型

豆包视频模型包括 PixelDance 模型和 Seaweed 模型两种。

9月24日 1

豆包视频生成模型能够实现复杂的多主体互动。这意味着多个视频中的人物可以在不同镜头中自然地完成复杂的互动动作,人物的样貌、服装和细节在不同镜头的切换下仍然保持一致,接近真实拍摄的效果。

这种一致性得益于 DiT架构(融合计算单元)的应用,使得视频生成在动态和运镜之间可以灵活切换,支持多种镜头语言,如变焦、环绕、平摇、缩放、目标跟随等。

  • 精准的语义理解:模型能够理解复杂的用户指令(prompt),生成多个动作和主体之间的交互视频。可以处理具有时间顺序和复杂结构的任务,如生成时序性动作和多个主体互动的场景。

  • 强大的动态表现和镜头切换:
    • 豆包·视频生成模型突破了传统PPT动画的局限,能够生成流畅的动态视频,并支持复杂的镜头操作,如变焦、环绕、平摇、缩放和目标跟踪等。
    • 模型具备灵活的视角控制能力,带来更贴近现实的视觉体验,能够在不同场景中轻松切换镜头。

 

0bc3waaaaaaawuaf34psyjtfbmgdacyaaaaa.f10002
  • 多镜头一致性:
    • 模型解决了多镜头切换时的一致性问题,支持在一个 prompt 中实现多个镜头的平滑切换,同时保持主体、风格和氛围的一致性。它可以在短短10秒内生成一个完整故事的视频,从而大幅提升生成视频的叙事能力。
    • PixelDance模型成功攻克了多镜头切换时难以保持一致性的困扰,可10秒讲述一个起承转合的故事。在一个prompt的多个镜头切换时,保持主体,风格,氛围和逻辑的一致性,实现导演自由。
      0bc3vmabqaaahian7t7rlbtfbk6ddcvqagaa.f10002
      0bc3c4aauaaadaam5axrfztfaf6dbilqacqa.f10002
      0bc3neabsaaayeakbixreztfa2oddfuqagia.f10002

      0bc3j4abuaaaiyafqz7sevtfat6ddjhqagqa.f10002

以上视频来自卡兹克授权发布

  • 高保真和多风格支持:
    • 豆包·视频生成模型支持多种视频风格,包括黑白风格、3D动画、2D动画、国画等多种表现形式。画面比例方面,模型支持1:1、3:4、4:3、16:9、9:16、21:9六种比例,适应不同终端设备和需求,如手机竖屏、电影画幅等。
    • 通过高保真的图像质量,模型能够为生成的视频提供卓越的视觉效果。

应用场景:

  1. 电商营销:
    • 豆包视频生成模型能够快速生成3D动态商品展示,支持根据节日、主题替换背景和风格,生成不同尺寸的营销视频,提升电商企业的营销效率。
  2. 动画教育:
    • 模型可以大幅降低动画制作成本,使得教育场景中的童话故事和互动内容更加生动、真实。
  3. 城市文旅、微电影、音乐MV:
    • 豆包模型可应用于城市宣传、文旅营销和短片制作,通过高效生成多风格视频,大幅提升创意内容的制作效率。

一些其他案例

VGFM V0.2 HQ_一只活泼的小猫正向镜头奔来。 (3)
154_3
129_2
27.0.A vibrant green sea turtle is
98_6
21_4
11_1
100_1
125_3

豆包·音乐模型:

能够生成高质量的音乐作品,为音乐创作提供便利。

0bc3f4abqaaaryabp6psjntfal6ddaxqagaa.f10002

豆包·同声传译模型:

支持多语言的实时同声传译,进一步增强了语言模型在跨语言场景中的应用能力。

0bc3q4abqaaakmaeevxrlbtfbb6ddcdqagaa.f10002

豆包视频模型体验地址:https://jimeng.jianying.com/ai-tool/video/generate

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Nvidia 的下一代 DLSS 技术 利用人工智能直接生成游戏中角色、物体甚至是NPC

Nvidia 的下一代 DLSS 技术 利用人工智能直接生成游戏中角色、物体甚至是NPC

112 VIEWS
2024年6月24日
Extropic 发布一种全新的热力学计算机  利用物质随机波动驱动计算

Extropic 发布一种全新的热力学计算机 利用物质随机波动驱动计算

340 VIEWS
2024年4月28日
ULTRAEDIT:通过多样化的图像编辑指令 轻松通过文本任意编辑图像

ULTRAEDIT:通过多样化的图像编辑指令 轻松通过文本任意编辑图像

88 VIEWS
2024年7月11日
全面了解和掌握 Midjourney 中的各种摄影灯光照明技巧→ 自然采光

全面了解和掌握 Midjourney 中的各种摄影灯光照明技巧→ 人工照明

117 VIEWS
2024年4月26日
Replit 发布Replit  Agent AI应用开发助手  0基础编程用户也能开发程序

Replit 发布Replit  Agent AI应用开发助手 0基础编程用户也能开发程序

528 VIEWS
2024年9月6日
Command-R:高性能企业级语言模型 跨语言交互与自动化工具集成

Command-R:高性能企业级语言模型 跨语言交互与自动化工具集成

38 VIEWS
2024年3月14日
InternVL:GPT-4V开源替代方案 最接近 GPT-4V 表现的可商用开源模型

InternVL:GPT-4V开源替代方案 最接近 GPT-4V 表现的可商用开源模型

489 VIEWS
2024年4月29日
苹果发布 Final Cut Pro 11 新增多项AI功能 自动抠图和自动生成字幕

苹果发布 Final Cut Pro 11 新增多项AI功能 自动抠图和自动生成字幕

277 VIEWS
2024年11月14日
V-Express:根据单张个人照片生成视频 并能通过多种信号控制视频内容

V-Express:根据单张个人照片生成视频 并能通过多种信号控制视频内容

417 VIEWS
2024年5月30日
OpenAI 高层 Reddit AMA 完整版

OpenAI 高层 Reddit AMA 完整版

73 VIEWS
2024年11月1日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版