Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

DeepSeek发布236B参数 160位专家的专家混合(MoE)模型:DeepSeek-V2

by 小互
2024年5月7日
in AI 项目, XiaoHu.AI日报
0 0
0
DeepSeek发布236B参数 160位专家的专家混合(MoE)模型:DeepSeek-V2
0
SHARES
705
VIEWS
Share on FacebookShare on Twitter

DeepSeek-V2,一个专家混合(MoE)语言模型,其特点是经济高效的训练和推理。它包含 2360 亿个总参数,其中每个token激活了 21 亿个参数。与 DeepSeek 67B 相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5%的训练成本,将 KV 缓存减少了 93.3%,并将最大生成吞吐量提高了 5.76 倍。

在 AlignBench 中排名前三,超越 GPT-4,接近 GPT-4-Turbo。 在 MT-Bench 中排名顶尖,与 LLaMA3-70B 不相上下,并且胜过 Mixtral 8x22B。 专注于数学、编码和推理。

DeepSeek-V2 完全开源,可免费用于商业用途。

🧮 236B参数,其中21B在生成过程中被激活
👨‍🏫 160位专家,其中有6位在生成中活跃
🚀 在英文基准测试中与 Mixtral 8x22B 匹配
🪟  128k上下文
🔠 在 8.1 万亿标记上训练
🌱 用于在 bf16 8x 80GB GPU 上进行推理
❌ 接受英语和中文语言训练

  • 模型概述: DeepSeek-V2-Chat是一个先进的Mixture-of-Experts(MoE)语言模型,具有高效的训练和推理能力,总参数量为2360亿,每个token激活21亿参数。与之前的版本相比,该模型在性能方面显著提升,并降低了训练成本、KV缓存需求以及生成开销。

  • 总体架构:

    • Mixture-of-Experts(MoE)结构: DeepSeek-V2-Chat基于混合专家的设计,允许每个输入token仅激活部分参数,大幅降低内存使用并提高计算效率。
    • 参数规模: 总参数量达到2360亿,但每个token激活21亿参数,从而实现性能与资源利用的平衡。
  • 长上下文窗口: 支持长达128K的上下文窗口。
  • 性能优势:

    • 与Dense模型DeepSeek 67B相比,DeepSeek-V2在多项标准基准测试中表现更强。
    • 减少训练成本42.5%,KV缓存降低93.3%,并将最大生成吞吐量提高5.76倍。
  • 数据训练: DeepSeek-V2在包含8.1万亿token的多样化高质量语料库上进行预训练,并通过监督微调(SFT)和强化学习(RL)来充分发挥模型潜力。

评估结果

  1. 标准基准测试:

    • MMLU(英语): 用于多任务推理和知识评估。DeepSeek-V2在该基准上达到了78.5分。
    • BBH(英语): 包含一系列复杂的推理任务。DeepSeek-V2的成绩为78.9分。
    • C-Eval(中文): 中国大型学术基准。DeepSeek-V2在这项测试中得分81.7。
    • CMMLU(中文): 中文多任务推理基准,DeepSeek-V2取得84.0分。
  2. 代码和数学基准:

    • HumanEval(代码): 用于评估编程能力,DeepSeek-V2得分为40.9。
    • MBPP(代码): 以Python编程任务为主,模型得分66.6。
    • GSM8K(数学): 小学生级别的数学题目,DeepSeek-V2得分79.2。
    • Math(数学): 包含各类数学题目,DeepSeek-V2达到了43.6的分数。
  3. 对话生成基准:

    • AlpacaEval 2.0和MTBench(英语): 这两项评估了DeepSeek-V2-Chat-RL在英语对话生成中的竞争力。
    • AlignBench(中文): 专门用于评估中文对话生成能力。在此基准上,DeepSeek-V2-Chat-RL取得了7.91的高分。
  4. 长上下文窗口评估:

    • Needle in a Haystack(NIAH): 评估了模型在长达128K的上下文窗口中的性能,DeepSeek-V2在各长度测试中表现稳定。
  5. 代码基准:

    • LiveCodeBench: 专注于实时编码挑战。DeepSeek-V2的Pass@1得分高于许多其他模型,证明其在实时编码任务中的有效性。

 

价格很美丽

模型下载:

DeepSeek-V2 128k 🤗 HuggingFace
DeepSeek-V2-Chat(RL) 128k 🤗 HuggingFace

Huggingface:https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat

论文:https://github.com/deepseek-ai/DeepSeek-V2/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

 Hugging Face 推出一站式搜索开源成果的平台:Paper Central

 Hugging Face 推出一站式搜索开源成果的平台:Paper Central

207 VIEWS
2024年10月3日
OpenAI 与Harvey合作 为法律专业人士定制训练了一个案例法模型

OpenAI 与Harvey合作 为法律专业人士定制训练了一个案例法模型

398 VIEWS
2024年4月3日
Prompt 学习地图 25 | 理论&实践 – CoT 逐步思考和推理

Prompt 学习地图 25 | 理论&实践 – CoT 逐步思考和推理

186 VIEWS
2024年5月3日
OpenAI 与 Thrive 公司将创建一个AI健康教练 改变人们的健康习惯预防疾病发生

OpenAI 与 Thrive 公司将创建一个AI健康教练 改变人们的健康习惯预防疾病发生

304 VIEWS
2024年7月10日
Magi: 自动将漫画转录成文字 并自动生成剧本

Magi: 自动将漫画转录成文字 并自动生成剧本

87 VIEWS
2024年3月11日
Omne:通过多智能体合作 解决AI长期记忆能力并提高AI推理能力

Omne:通过多智能体合作 解决AI长期记忆能力并提高AI推理能力

410 VIEWS
2024年10月25日

Prompt 学习地图 29 | 国产大模型及提示词适配

324 VIEWS
2024年5月20日
PIXART-Σ:利用Diffusion Transformer(DiT)直接生成4K分辨率图像

PIXART-Σ:利用Diffusion Transformer(DiT)直接生成4K分辨率图像

24 VIEWS
2024年3月11日
俄罗斯科技巨头Yandex 开源了一个LLM培训工具 可节省高达20%的 GPU 资源

俄罗斯科技巨头Yandex 开源了一个LLM培训工具 可节省高达20%的 GPU 资源

67 VIEWS
2024年6月13日
ToucanTTS:支持语言种类最多的 TTS 模型 支持超过7000种语言的语音合成

ToucanTTS:支持语言种类最多的 TTS 模型 支持超过7000种语言的语音合成

542 VIEWS
2024年6月28日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版