Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

生数科技发布可生成最长 16 秒、1080P 视频的类Sora模型:Vidu

by 小互
2024年4月27日
in XiaoHu.AI日报
0 0
0
0
SHARES
1k
VIEWS
Share on FacebookShare on Twitter

生数科技在中关村论坛未来人工智能先锋论坛上,与清华大学共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型被视为国内首个达到Sora级别的视频大模型。

官方称其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。2023年3月,团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,率先完成了U-ViT架构的大规模可扩展性验证。

主要特点和技术创新:

  • 模型结构:Vidu 模型融合了 Diffusion 与 Transformer 技术,创新性地开发了 U-ViT 架构。
  • 视频生成能力:Vidu 能够一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。
  • 实际应用演示:在官方资料中,展示了一个视频示例,内容是“画室中的一艘船驶向镜头”,展现了船和海浪的逼真效果。
  • 高级功能:Vidu 不仅能模拟真实物理世界,还具备丰富的想象力,支持多镜头生成和高时空一致性。

技术先进性:

  • 全球首创:Vidu 的 U-ViT 架构是全球首个将 Diffusion 与 Transformer 融合的架构,早于其他类似模型使用的技术。
  • 开源成就:2023年3月,团队开源了基于 U-ViT 架构的多模态扩散模型 UniDiffuser,这是全球首个此类模型,验证了 U-ViT 架构的大规模可扩展性。

官网:shengshu-ai.com/home

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
615
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

ChatTTS-Forge :一个提供易于使用WebUI和接入各种TTS API服务的开源项目

ChatTTS-Forge :一个提供易于使用WebUI和接入各种TTS API服务的开源项目

279 VIEWS
2024年8月30日
Follow-Your-Emoji:通过表情感知 精细控制和生成动态表情丰富的肖像动画

Follow-Your-Emoji:通过表情感知 精细控制和生成动态表情丰富的肖像动画

268 VIEWS
2024年6月8日
LLaVA++ : 赋予Phi-3 和 Llama-3 视觉能力

LLaVA++ : 赋予Phi-3 和 Llama-3 视觉能力

232 VIEWS
2024年4月27日
Chameleon:能同时理解和生成文本与图像混合模态模型

Chameleon:能同时理解和生成文本与图像混合模态模型

200 VIEWS
2024年5月22日
Google 宣布 Gemini 1.5 Pro 开放 API 新增对原生语音理解能力

Google 宣布 Gemini 1.5 Pro 开放 API 新增对原生语音理解能力

293 VIEWS
2024年4月10日
Anthropic 的研究人员发现了打开AI模型“黑盒子”的方法

Anthropic 的研究人员发现了打开AI模型“黑盒子”的方法

337 VIEWS
2024年5月22日
Project Neo:能快速为图标、动画插图和创建独特的3D形状

Project Neo:能快速为图标、动画插图和创建独特的3D形状

444 VIEWS
2024年5月5日
UniPortrait:在单人和多人场景中保持身份一致 并进行风格转换和自由编辑

UniPortrait:在单人和多人场景中保持身份一致 并进行风格转换和自由编辑

177 VIEWS
2024年8月16日
Ultralight-Digital-Human :支持在移动设备上实时运行的超轻量级数字人模型

Ultralight-Digital-Human :支持在移动设备上实时运行的超轻量级数字人模型

802 VIEWS
2024年10月28日
Adobe 将推出新的生成式 AI 视频模型  Firefly Video Model 集成到其视频工具中

Adobe 将推出新的生成式 AI 视频模型 Firefly Video Model 集成到其视频工具中

180 VIEWS
2024年9月12日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版