Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

生数科技发布可生成最长 16 秒、1080P 视频的类Sora模型:Vidu

by 小互
2024年4月27日
in XiaoHu.AI日报
0 0
0
0
SHARES
1k
VIEWS
Share on FacebookShare on Twitter

生数科技在中关村论坛未来人工智能先锋论坛上,与清华大学共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型被视为国内首个达到Sora级别的视频大模型。

官方称其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。2023年3月,团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,率先完成了U-ViT架构的大规模可扩展性验证。

主要特点和技术创新:

  • 模型结构:Vidu 模型融合了 Diffusion 与 Transformer 技术,创新性地开发了 U-ViT 架构。
  • 视频生成能力:Vidu 能够一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。
  • 实际应用演示:在官方资料中,展示了一个视频示例,内容是“画室中的一艘船驶向镜头”,展现了船和海浪的逼真效果。
  • 高级功能:Vidu 不仅能模拟真实物理世界,还具备丰富的想象力,支持多镜头生成和高时空一致性。

技术先进性:

  • 全球首创:Vidu 的 U-ViT 架构是全球首个将 Diffusion 与 Transformer 融合的架构,早于其他类似模型使用的技术。
  • 开源成就:2023年3月,团队开源了基于 U-ViT 架构的多模态扩散模型 UniDiffuser,这是全球首个此类模型,验证了 U-ViT 架构的大规模可扩展性。

官网:shengshu-ai.com/home

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Meta AI 研究员:网络上的文本基本都是“狗屎” Llama 3 没有使用任何人类书写的答案 全是合成数据

Meta AI 研究员:网络上的文本基本都是“狗屎” Llama 3 没有使用任何人类书写的答案 全是合成数据

256 VIEWS
2024年7月24日
Mem0:为大语言模型提供永久记忆能力  实现跨应用程序的个性化AI体验

Mem0:为大语言模型提供永久记忆能力 实现跨应用程序的个性化AI体验

447 VIEWS
2024年7月22日
Melodisco:AI 版的网易云音乐 一个开源的 AI 播放器 收录了 30 万首 AI 歌曲

Melodisco:AI 版的网易云音乐 一个开源的 AI 播放器 收录了 30 万首 AI 歌曲

324 VIEWS
2024年8月17日
OpenAI官方提示指南 获得更好结果的六种策略

OpenAI官方提示指南 获得更好结果的六种策略

218 VIEWS
2024年3月19日
李飞飞:借助空间智能,人工智能将了解真实世界

李飞飞:借助空间智能,人工智能将了解真实世界

380 VIEWS
2024年5月17日
Stability AI 开源其 Stable Diffusion 3 Medium 模型 可在消费级笔记本电脑上运行

Stability AI 开源其 Stable Diffusion 3 Medium 模型 可在消费级笔记本电脑上运行

484 VIEWS
2024年6月12日
Sanctuary AI发布其第七代机器人 更接近人类 24小时之内就能学会新任务

Sanctuary AI发布其第七代机器人 更接近人类 24小时之内就能学会新任务

220 VIEWS
2024年4月27日
HairFastGAN:将一张照片上的人物发型转移到另一张照片上

HairFastGAN:将一张照片上的人物发型转移到另一张照片上

287 VIEWS
2024年4月10日
Llama3-8B-Chinese-Chat:基于Llama3-8B微调的中文聊天模型 优化中文回答

Llama3-8B-Chinese-Chat:基于Llama3-8B微调的中文聊天模型 优化中文回答

767 VIEWS
2024年4月24日
Twitter-web-exporter:一键导出X的推文、书签、列表 无需API

Twitter-web-exporter:一键导出X的推文、书签、列表 无需API

2.1k VIEWS
2024年4月7日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版