Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

快手发布“可灵”视频大模型 类似Sora技术路线 能生成超过120秒 1080P视频

by 小互
2024年6月8日
in XiaoHu.AI日报
0 0
0
快手发布“可灵”视频大模型  类似Sora技术路线 能生成超过120秒 1080P视频
0
SHARES
1.4k
VIEWS
Share on FacebookShare on Twitter

快手最新发布的国产视频生成大模型“可灵”大模型,采用了类似Sora的技术路线,并结合了多项自研技术创新,能够生成时长超过120秒、分辨率高达1080p的视频,且能够精准建模复杂运动和物理特性。

主要功能特点

1. 高质量视频生成

  • 时长和帧率:可灵支持生成时长长达2分钟、30fps的超长视频。
  • 分辨率:生成视频的分辨率高达1080p,画质清晰细腻。
  • 宽高比:支持多种宽高比的视频生成,包括竖版视频,适配不同的使用场景和平台。

2. 物理世界模拟

  • 真实物理特性:可灵大模型能够模拟真实世界的物理特性,例如重力、光影反射、液体流动等。
  • 细节刻画:对于物体的运动、表面反射、影子变化等细节刻画非常到位,提供真实的视觉体验。

3. 复杂运动刻画

  • 精准运动建模:能够准确建模复杂且大幅度的运动场景,例如高速奔跑的动物、在月球上行走的宇航员等。
  • 连贯性:生成的视频画面连贯,动作流畅,能够真实再现运动过程中的细微变化。

4. 多种控制信息输入

  • 控制信息输入:支持用户输入相机运镜、帧率、边缘/关键点/深度等控制信息,提供丰富的内容控制能力。
  • 文本提示词优化:设计了专用的语言模型,可以对用户输入的提示词进行高质量扩充及优化,提升生成效果。

技术实现

1. 模型设计
  • 类Sora架构:采用了类Sora的DiT结构,用Transformer代替传统扩散模型中的卷积网络,提升生成能力和扩展性。
  • 3D VAE网络:自研3D VAE网络,实现时空同步压缩,提升视频重建质量。
  • 全注意力机制:设计了3D Attention机制进行时空建模,能够准确建模复杂时空运动,同时兼顾计算效率。
2. 数据保障
  • 标签体系:构建了完备的标签体系,对训练数据进行精细化筛选和调整,确保视频数据的高质量。
  • 视频描述模型:研发了视频描述模型,生成精确、详尽、结构化的视频描述,提高文本指令响应能力。
3. 计算效率
  • 分布式训练集群:使用分布式训练集群,通过算子优化、重算策略优化等手段,大幅提升硬件利用率。
  • 分阶段训练策略:采取分阶段训练策略,先在低分辨率阶段通过大量数据增强模型能力,再在高分辨率阶段提升细节表现。

一些案例

  • 大幅度的合理运动
    视频播放器
    dfd

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/dfd.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
    视频播放器
    6月8日 (1)(6)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-16.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。

    视频播放器
    6月8日 (1)(7)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-17.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
  • 长达2分钟的视频生成

    视频播放器
    6月8日 (1)(31) 1

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-131-1.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。

     

    视频播放器
    6月8日 (1)(30) 1

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-130-1.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
  • 模拟物理世界特性

    视频播放器
    6月8日 (1)(16)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-116.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
    视频播放器
    6月8日 (1)(17)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-117.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
    视频播放器
    6月8日 (1)(18)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-118.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。

    视频播放器
    6月8日 (1)(25)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-125.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
  • 强大的概念组合能力

    视频播放器
    6月8日 (1)(32)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-132.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。

    视频播放器
    6月8日 (1)(27)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-127.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
  • 电影级的画面生成

    视频播放器
    6月8日 (1)(29)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-129.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
    视频播放器
    6月8日 (1)(22)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-122.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。

    视频播放器
    6月8日 (1)(21)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-121.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
  • 支持自由的输出视频宽高比

    视频播放器
    6月8日 (1)(24)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-124.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
    视频播放器
    6月8日 (1)(23)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-123.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。

    视频播放器
    6月8日 (1)(26)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-126.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
  • 表情身体驱动:基于自研的3D人脸和人体重建技术,结合背景稳定性和重定向模块,实现表情肢体全驱动技术,仅需一张全身照片,即可体验生动的“唱跳”玩法
    .
    视频播放器
    6月8日 (1)(15)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-115.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。

    视频播放器
    6月8日 (1)(14)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-114.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
    视频播放器
    6月8日 (1)(12)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-112.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
    视频播放器
    6月8日 (1)(10)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-110.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。

    视频播放器
    6月8日 (1)(9)

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/06/6%E6%9C%888%E6%97%A5-19.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。

 

官网:https://kling.kuaishou.com/

更多测试结果:https://waytoagi.feishu.cn/wiki/GevKwyEt1i4SUVk0q2JcqQFtnRd

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
485
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
341
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
454
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
280
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
621
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
432

Recommendeds

FLUX 1.1 Pro Ultra 发布 支持高达 4 兆像素的分辨率 每张图片仅需约 10 秒

FLUX 1.1 Pro Ultra 发布 支持高达 4 兆像素的分辨率 每张图片仅需约 10 秒

269 VIEWS
2024年11月7日
硅基智能开源其AI数字人交互平台 可以轻松创建逼真数字人

硅基智能开源其AI数字人交互平台 可以轻松创建逼真数字人

823 VIEWS
2024年6月28日
Adobe 推出新的 Firefly Image 3 Model 模型

Adobe 推出新的 Firefly Image 3 Model 模型

126 VIEWS
2024年4月23日
Black Forest Labs 发布其最新的图像生成模型 FLUX1.1 [pro] 生成速度快6倍

Black Forest Labs 发布其最新的图像生成模型 FLUX1.1 [pro] 生成速度快6倍

223 VIEWS
2024年10月3日
Octopus-v2:可以在移动设备上运行的2B LLMs ,性能优于 GPT-4

Octopus-v2:可以在移动设备上运行的2B LLMs ,性能优于 GPT-4

774 VIEWS
2024年4月8日
浦语灵笔 IXC-2.5:能看懂视频,完整书写文章、自动生成网站的多模态模型

浦语灵笔 IXC-2.5:能看懂视频,完整书写文章、自动生成网站的多模态模型

338 VIEWS
2024年7月7日
教程:教您如何轻松将任意视频一键合成到任意背景上 附工作流下载

教程:教您如何轻松将任意视频一键合成到任意背景上 附工作流下载

587 VIEWS
2024年8月19日
Claude 3.5 新功能 支持对 100 页的PDF 图像、图表和图形进行可视化分析

Claude 3.5 新功能 支持对 100 页的PDF 图像、图表和图形进行可视化分析

336 VIEWS
2024年11月3日
ChatGPT 记忆功能上线 能记住你和GPT互动的所有内容

ChatGPT 记忆功能上线 能记住你和GPT互动的所有内容

861 VIEWS
2024年4月30日
Suno发布音频输入功能 用户可以使用任何声音随时随地创作歌曲

Suno发布音频输入功能 用户可以使用任何声音随时随地创作歌曲

429 VIEWS
2024年6月13日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

- Select Visibility -

    No Result
    View All Result
    • Home
    • AI 工具
    • XiaoHu.AI 学院
      • AI 教程
      • AI 课程
    • XiaoHu.AI日报
    • 开源项目案例库
      • AI 论文
      • AI 资源
      • AI 项目
    • 加入会员
    • →社群
    • Login

    © 2024 Xiaohu.AI

    Are you sure want to unlock this post?
    Unlock left : 0
    Are you sure want to cancel subscription?
    转到手机版