Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

字节跳动发布一些列新的模型 包括基于DIT的视频生成模型、音乐模型,同声传译模型等

by 小互
2024年9月24日
in XiaoHu.AI日报
0 0
0
字节跳动发布一些列新的模型 包括基于DIT的视频生成模型、音乐模型,同声传译模型等
0
SHARES
969
VIEWS
Share on FacebookShare on Twitter
字节跳动今天发布一些列新的模型。包括音乐模型,同声传译模型、文生图2.0模型、新的基于DIT的视频生成模型、豆包通用模型pro、语音合成模型。
 
还发布了图像转视频口型同步模型和文本、音频驱动的数字人模型。
 
这些功能将全部集成到最新版的豆包、即梦AI和剪映中…
其中,主力模型“豆包通用模型pro”最新版本在各维度上国内领先。
 
截至到9月,豆包大模型的日均 tokens 使用量已经超过1.3万亿,4个月的时间里 tokens 整体增长超过了10倍。在多模态方面,豆包·文生图模型日均生成图片5,000万张,此外,豆包目前日均处理语音85万小时。

豆包·视频生成模型:

基于DIT架构的视频生成模型

豆包视频模型包括 PixelDance 模型和 Seaweed 模型两种。

9月24日 1

豆包视频生成模型能够实现复杂的多主体互动。这意味着多个视频中的人物可以在不同镜头中自然地完成复杂的互动动作,人物的样貌、服装和细节在不同镜头的切换下仍然保持一致,接近真实拍摄的效果。

这种一致性得益于 DiT架构(融合计算单元)的应用,使得视频生成在动态和运镜之间可以灵活切换,支持多种镜头语言,如变焦、环绕、平摇、缩放、目标跟随等。

  • 精准的语义理解:模型能够理解复杂的用户指令(prompt),生成多个动作和主体之间的交互视频。可以处理具有时间顺序和复杂结构的任务,如生成时序性动作和多个主体互动的场景。

  • 强大的动态表现和镜头切换:
    • 豆包·视频生成模型突破了传统PPT动画的局限,能够生成流畅的动态视频,并支持复杂的镜头操作,如变焦、环绕、平摇、缩放和目标跟踪等。
    • 模型具备灵活的视角控制能力,带来更贴近现实的视觉体验,能够在不同场景中轻松切换镜头。

 

0bc3waaaaaaawuaf34psyjtfbmgdacyaaaaa.f10002
  • 多镜头一致性:
    • 模型解决了多镜头切换时的一致性问题,支持在一个 prompt 中实现多个镜头的平滑切换,同时保持主体、风格和氛围的一致性。它可以在短短10秒内生成一个完整故事的视频,从而大幅提升生成视频的叙事能力。
    • PixelDance模型成功攻克了多镜头切换时难以保持一致性的困扰,可10秒讲述一个起承转合的故事。在一个prompt的多个镜头切换时,保持主体,风格,氛围和逻辑的一致性,实现导演自由。
      0bc3vmabqaaahian7t7rlbtfbk6ddcvqagaa.f10002
      0bc3c4aauaaadaam5axrfztfaf6dbilqacqa.f10002
      0bc3neabsaaayeakbixreztfa2oddfuqagia.f10002

      0bc3j4abuaaaiyafqz7sevtfat6ddjhqagqa.f10002

以上视频来自卡兹克授权发布

  • 高保真和多风格支持:
    • 豆包·视频生成模型支持多种视频风格,包括黑白风格、3D动画、2D动画、国画等多种表现形式。画面比例方面,模型支持1:1、3:4、4:3、16:9、9:16、21:9六种比例,适应不同终端设备和需求,如手机竖屏、电影画幅等。
    • 通过高保真的图像质量,模型能够为生成的视频提供卓越的视觉效果。

应用场景:

  1. 电商营销:
    • 豆包视频生成模型能够快速生成3D动态商品展示,支持根据节日、主题替换背景和风格,生成不同尺寸的营销视频,提升电商企业的营销效率。
  2. 动画教育:
    • 模型可以大幅降低动画制作成本,使得教育场景中的童话故事和互动内容更加生动、真实。
  3. 城市文旅、微电影、音乐MV:
    • 豆包模型可应用于城市宣传、文旅营销和短片制作,通过高效生成多风格视频,大幅提升创意内容的制作效率。

一些其他案例

VGFM V0.2 HQ_一只活泼的小猫正向镜头奔来。 (3)
154_3
129_2
27.0.A vibrant green sea turtle is
98_6
21_4
11_1
100_1
125_3

豆包·音乐模型:

能够生成高质量的音乐作品,为音乐创作提供便利。

0bc3f4abqaaaryabp6psjntfal6ddaxqagaa.f10002

豆包·同声传译模型:

支持多语言的实时同声传译,进一步增强了语言模型在跨语言场景中的应用能力。

0bc3q4abqaaakmaeevxrlbtfbb6ddcdqagaa.f10002

豆包视频模型体验地址:https://jimeng.jianying.com/ai-tool/video/generate

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

全球首款集成GPT-4o 的智能眼镜发布 支持视觉能力和实时问答

全球首款集成GPT-4o 的智能眼镜发布 支持视觉能力和实时问答

1.3k VIEWS
2024年6月30日
Google Shopping API :抓取商品详情、评论、规格、优惠信息等

Google Shopping API :抓取商品详情、评论、规格、优惠信息等

51 VIEWS
2024年3月11日
TurboEdit:基于文本提示实现亚秒级实时图像编辑  相比传统方法实现了 6到630倍的速度提升

TurboEdit:基于文本提示实现亚秒级实时图像编辑 相比传统方法实现了 6到630倍的速度提升

113 VIEWS
2024年9月22日
一组由GPT-4组成的智能代理团队 自主破解零日安全漏洞 成功率达到53%

一组由GPT-4组成的智能代理团队 自主破解零日安全漏洞 成功率达到53%

89 VIEWS
2024年6月10日
Apten:AI 驱动的短信助手 让AI通过短信和你的客户进行交流

Apten:AI 驱动的短信助手 让AI通过短信和你的客户进行交流

247 VIEWS
2024年5月29日
PixelPlayer:自动从视频中识别和分离声音源,并与画面匹配

PixelPlayer:自动从视频中识别和分离声音源,并与画面匹配

286 VIEWS
2024年3月6日
亚马逊推出了一款人工智能购物助手:Rufus 帮助用户进行购物决策

亚马逊推出了一款人工智能购物助手:Rufus 帮助用户进行购物决策

398 VIEWS
2024年7月14日
EvTexture:一种提升视频分辨率的新方法 解决了视频细节模糊和抖动问题

EvTexture:一种提升视频分辨率的新方法 解决了视频细节模糊和抖动问题

301 VIEWS
2024年6月24日
Prompt 学习地图 18 | 复杂任务 – 综合分析多个答案

Prompt 学习地图 18 | 复杂任务 – 综合分析多个答案

93 VIEWS
2024年4月18日

苹果收购法国初创公司Datakalab 专注于AI和计算机视觉技术

42 VIEWS
2024年4月23日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版