Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 论文

Stable Diffusion 3论文:一种新的多模态扩散变换器(MMDiT)架构

by 小互
2024年3月6日
in AI 论文
0 0
0
Stable Diffusion 3论文:一种新的多模态扩散变换器(MMDiT)架构
0
SHARES
76
VIEWS
Share on FacebookShare on Twitter

Stability AI发布了关于Stable Diffusion 3(SD3)的研究论文,揭示了这一最新模型的技术细节。SD3在诸如DALL·E 3、Midjourney v6、Ideogram v1等先进的文本到图像生成系统中,在字体渲染和命令遵循方面根据人类偏好评估取得了更好的表现。SD3引入了一种新的多模态扩散变换器(MMDiT)架构,使用独立的权重集处理图像和语言表示,比以前的版本在文本理解和拼写能力上有所提高。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
476
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
331
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
444
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
276
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
607
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

Twitter-Insight-LLM:抓取Twitter数据并可通过自然语言搜索图像

Twitter-Insight-LLM:抓取Twitter数据并可通过自然语言搜索图像

448 VIEWS
2024年4月19日
Kyutai 发布全新的开源 AI 语音助手 Moshi 平替 OpenAI 的GPT 4o

Kyutai 发布全新的开源 AI 语音助手 Moshi 平替 OpenAI 的GPT 4o

653 VIEWS
2024年7月4日
Hertz-dev:首个会话音频开源模型 全双工实时语音交互 120毫秒超低延迟

Hertz-dev:首个会话音频开源模型 全双工实时语音交互 120毫秒超低延迟

322 VIEWS
2024年11月5日
斯坦福大学推出一种上下文向量(ICV)新方法 提高模型微调效率和可扩展性

斯坦福大学推出一种上下文向量(ICV)新方法 提高模型微调效率和可扩展性

74 VIEWS
2024年7月14日
ReSyncer:一个多功能统一模型 可以实现音视频口型同步、说话风格迁移和换脸

ReSyncer:一个多功能统一模型 可以实现音视频口型同步、说话风格迁移和换脸

787 VIEWS
2024年8月10日
MaskGCT:零样本文本到语音(TTS)模型 支持跨语言配音、语音转换、情感控制等

MaskGCT:零样本文本到语音(TTS)模型 支持跨语言配音、语音转换、情感控制等

631 VIEWS
2024年10月27日
微信发布一款桌面AI效率工具:小微助手 可搜索电脑中所有内容

微信发布一款桌面AI效率工具:小微助手 可搜索电脑中所有内容

2.9k VIEWS
2024年4月24日
Prompt 学习地图 16 | 复杂任务 – 结构化的有效性

Prompt 学习地图 16 | 复杂任务 – 结构化的有效性

148 VIEWS
2024年4月18日
Qwen推出专门的数学语言模型:Qwen2-Math 超越GPT-4o、Claude-3.5

Qwen推出专门的数学语言模型:Qwen2-Math 超越GPT-4o、Claude-3.5

227 VIEWS
2024年8月9日
CURE:借助庞大的患者数据训练 能准确预测治疗结果的AI模型

CURE:借助庞大的患者数据训练 能准确预测治疗结果的AI模型

187 VIEWS
2024年5月7日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版