Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

DeepSeek发布236B参数 160位专家的专家混合(MoE)模型:DeepSeek-V2

by 小互
2024年5月7日
in AI 项目, XiaoHu.AI日报
0 0
0
DeepSeek发布236B参数 160位专家的专家混合(MoE)模型:DeepSeek-V2
0
SHARES
705
VIEWS
Share on FacebookShare on Twitter

DeepSeek-V2,一个专家混合(MoE)语言模型,其特点是经济高效的训练和推理。它包含 2360 亿个总参数,其中每个token激活了 21 亿个参数。与 DeepSeek 67B 相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5%的训练成本,将 KV 缓存减少了 93.3%,并将最大生成吞吐量提高了 5.76 倍。

在 AlignBench 中排名前三,超越 GPT-4,接近 GPT-4-Turbo。 在 MT-Bench 中排名顶尖,与 LLaMA3-70B 不相上下,并且胜过 Mixtral 8x22B。 专注于数学、编码和推理。

DeepSeek-V2 完全开源,可免费用于商业用途。

🧮 236B参数,其中21B在生成过程中被激活
👨‍🏫 160位专家,其中有6位在生成中活跃
🚀 在英文基准测试中与 Mixtral 8x22B 匹配
🪟  128k上下文
🔠 在 8.1 万亿标记上训练
🌱 用于在 bf16 8x 80GB GPU 上进行推理
❌ 接受英语和中文语言训练

  • 模型概述: DeepSeek-V2-Chat是一个先进的Mixture-of-Experts(MoE)语言模型,具有高效的训练和推理能力,总参数量为2360亿,每个token激活21亿参数。与之前的版本相比,该模型在性能方面显著提升,并降低了训练成本、KV缓存需求以及生成开销。

  • 总体架构:

    • Mixture-of-Experts(MoE)结构: DeepSeek-V2-Chat基于混合专家的设计,允许每个输入token仅激活部分参数,大幅降低内存使用并提高计算效率。
    • 参数规模: 总参数量达到2360亿,但每个token激活21亿参数,从而实现性能与资源利用的平衡。
  • 长上下文窗口: 支持长达128K的上下文窗口。
  • 性能优势:

    • 与Dense模型DeepSeek 67B相比,DeepSeek-V2在多项标准基准测试中表现更强。
    • 减少训练成本42.5%,KV缓存降低93.3%,并将最大生成吞吐量提高5.76倍。
  • 数据训练: DeepSeek-V2在包含8.1万亿token的多样化高质量语料库上进行预训练,并通过监督微调(SFT)和强化学习(RL)来充分发挥模型潜力。

评估结果

  1. 标准基准测试:

    • MMLU(英语): 用于多任务推理和知识评估。DeepSeek-V2在该基准上达到了78.5分。
    • BBH(英语): 包含一系列复杂的推理任务。DeepSeek-V2的成绩为78.9分。
    • C-Eval(中文): 中国大型学术基准。DeepSeek-V2在这项测试中得分81.7。
    • CMMLU(中文): 中文多任务推理基准,DeepSeek-V2取得84.0分。
  2. 代码和数学基准:

    • HumanEval(代码): 用于评估编程能力,DeepSeek-V2得分为40.9。
    • MBPP(代码): 以Python编程任务为主,模型得分66.6。
    • GSM8K(数学): 小学生级别的数学题目,DeepSeek-V2得分79.2。
    • Math(数学): 包含各类数学题目,DeepSeek-V2达到了43.6的分数。
  3. 对话生成基准:

    • AlpacaEval 2.0和MTBench(英语): 这两项评估了DeepSeek-V2-Chat-RL在英语对话生成中的竞争力。
    • AlignBench(中文): 专门用于评估中文对话生成能力。在此基准上,DeepSeek-V2-Chat-RL取得了7.91的高分。
  4. 长上下文窗口评估:

    • Needle in a Haystack(NIAH): 评估了模型在长达128K的上下文窗口中的性能,DeepSeek-V2在各长度测试中表现稳定。
  5. 代码基准:

    • LiveCodeBench: 专注于实时编码挑战。DeepSeek-V2的Pass@1得分高于许多其他模型,证明其在实时编码任务中的有效性。

 

价格很美丽

模型下载:

DeepSeek-V2 128k 🤗 HuggingFace
DeepSeek-V2-Chat(RL) 128k 🤗 HuggingFace

Huggingface:https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat

论文:https://github.com/deepseek-ai/DeepSeek-V2/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

苹果宣布一些列新的辅助功能,包括眼动追踪、语音快捷方式等

苹果宣布一些列新的辅助功能,包括眼动追踪、语音快捷方式等

180 VIEWS
2024年5月16日
苹果开发出能 “看 “懂屏幕上下文的人工智能 不需要依赖屏幕截图

苹果开发出能 “看 “懂屏幕上下文的人工智能 不需要依赖屏幕截图

357 VIEWS
2024年4月3日
Video2Game :将现实世界的视频自动转换成逼真且可交互的游戏环境

Video2Game :将现实世界的视频自动转换成逼真且可交互的游戏环境

194 VIEWS
2024年4月24日
Arc2Face:根据你的独特面部特征生成极为逼真且多样化的人脸图像

Arc2Face:根据你的独特面部特征生成极为逼真且多样化的人脸图像

159 VIEWS
2024年3月30日
DeepMind 发布新一代天气预测 AI 模型:GenCast 可精准预测15天内的天气情况

DeepMind 发布新一代天气预测 AI 模型:GenCast 可精准预测15天内的天气情况

346 VIEWS
2024年12月5日
StoryMaker:一致性角色图像解决方案 能同时保持面部、服装、发型和身体姿态一致性

StoryMaker:一致性角色图像解决方案 能同时保持面部、服装、发型和身体姿态一致性

308 VIEWS
2024年9月21日
Mini-Omni 支持“边思考边说话” 具备端到端的实时语音输入和输出能力模型

Mini-Omni 支持“边思考边说话” 具备端到端的实时语音输入和输出能力模型

350 VIEWS
2024年9月8日
InstantStyle:将风格和内容的有效分离 确保图像风格一致性

InstantStyle:将风格和内容的有效分离 确保图像风格一致性

90 VIEWS
2024年4月6日
Google:为特定领域专门化大语言模型的三步设计模式

Google:为特定领域专门化大语言模型的三步设计模式

307 VIEWS
2024年4月1日
教程:如何在 Midjourney 中通过混合 srefs 创建双重色彩图像效果

教程:如何在 Midjourney 中通过混合 srefs 创建双重色彩图像效果

102 VIEWS
2024年8月29日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版