Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

DeepSeek发布236B参数 160位专家的专家混合(MoE)模型:DeepSeek-V2

by 小互
2024年5月7日
in AI 项目, XiaoHu.AI日报
0 0
0
DeepSeek发布236B参数 160位专家的专家混合(MoE)模型:DeepSeek-V2
0
SHARES
705
VIEWS
Share on FacebookShare on Twitter

DeepSeek-V2,一个专家混合(MoE)语言模型,其特点是经济高效的训练和推理。它包含 2360 亿个总参数,其中每个token激活了 21 亿个参数。与 DeepSeek 67B 相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5%的训练成本,将 KV 缓存减少了 93.3%,并将最大生成吞吐量提高了 5.76 倍。

在 AlignBench 中排名前三,超越 GPT-4,接近 GPT-4-Turbo。 在 MT-Bench 中排名顶尖,与 LLaMA3-70B 不相上下,并且胜过 Mixtral 8x22B。 专注于数学、编码和推理。

DeepSeek-V2 完全开源,可免费用于商业用途。

🧮 236B参数,其中21B在生成过程中被激活
👨‍🏫 160位专家,其中有6位在生成中活跃
🚀 在英文基准测试中与 Mixtral 8x22B 匹配
🪟  128k上下文
🔠 在 8.1 万亿标记上训练
🌱 用于在 bf16 8x 80GB GPU 上进行推理
❌ 接受英语和中文语言训练

  • 模型概述: DeepSeek-V2-Chat是一个先进的Mixture-of-Experts(MoE)语言模型,具有高效的训练和推理能力,总参数量为2360亿,每个token激活21亿参数。与之前的版本相比,该模型在性能方面显著提升,并降低了训练成本、KV缓存需求以及生成开销。

  • 总体架构:

    • Mixture-of-Experts(MoE)结构: DeepSeek-V2-Chat基于混合专家的设计,允许每个输入token仅激活部分参数,大幅降低内存使用并提高计算效率。
    • 参数规模: 总参数量达到2360亿,但每个token激活21亿参数,从而实现性能与资源利用的平衡。
  • 长上下文窗口: 支持长达128K的上下文窗口。
  • 性能优势:

    • 与Dense模型DeepSeek 67B相比,DeepSeek-V2在多项标准基准测试中表现更强。
    • 减少训练成本42.5%,KV缓存降低93.3%,并将最大生成吞吐量提高5.76倍。
  • 数据训练: DeepSeek-V2在包含8.1万亿token的多样化高质量语料库上进行预训练,并通过监督微调(SFT)和强化学习(RL)来充分发挥模型潜力。

评估结果

  1. 标准基准测试:

    • MMLU(英语): 用于多任务推理和知识评估。DeepSeek-V2在该基准上达到了78.5分。
    • BBH(英语): 包含一系列复杂的推理任务。DeepSeek-V2的成绩为78.9分。
    • C-Eval(中文): 中国大型学术基准。DeepSeek-V2在这项测试中得分81.7。
    • CMMLU(中文): 中文多任务推理基准,DeepSeek-V2取得84.0分。
  2. 代码和数学基准:

    • HumanEval(代码): 用于评估编程能力,DeepSeek-V2得分为40.9。
    • MBPP(代码): 以Python编程任务为主,模型得分66.6。
    • GSM8K(数学): 小学生级别的数学题目,DeepSeek-V2得分79.2。
    • Math(数学): 包含各类数学题目,DeepSeek-V2达到了43.6的分数。
  3. 对话生成基准:

    • AlpacaEval 2.0和MTBench(英语): 这两项评估了DeepSeek-V2-Chat-RL在英语对话生成中的竞争力。
    • AlignBench(中文): 专门用于评估中文对话生成能力。在此基准上,DeepSeek-V2-Chat-RL取得了7.91的高分。
  4. 长上下文窗口评估:

    • Needle in a Haystack(NIAH): 评估了模型在长达128K的上下文窗口中的性能,DeepSeek-V2在各长度测试中表现稳定。
  5. 代码基准:

    • LiveCodeBench: 专注于实时编码挑战。DeepSeek-V2的Pass@1得分高于许多其他模型,证明其在实时编码任务中的有效性。

 

价格很美丽

模型下载:

DeepSeek-V2 128k 🤗 HuggingFace
DeepSeek-V2-Chat(RL) 128k 🤗 HuggingFace

Huggingface:https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat

论文:https://github.com/deepseek-ai/DeepSeek-V2/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
478
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
332
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
444
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
277
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
608
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

Ebook2Audiobook:将电子书自动转换为有声书 支持语音克隆、多种语言

Ebook2Audiobook:将电子书自动转换为有声书 支持语音克隆、多种语言

402 VIEWS
2024年10月7日
OpenAI公布其最新的o1 模型官方提示词建议 提示越简洁越好  链式思维提示可能适得其反

OpenAI公布其最新的o1 模型官方提示词建议 提示越简洁越好 链式思维提示可能适得其反

607 VIEWS
2024年9月13日
Black Forest Labs 发布其最新的图像生成模型 FLUX1.1 [pro] 生成速度快6倍

Black Forest Labs 发布其最新的图像生成模型 FLUX1.1 [pro] 生成速度快6倍

222 VIEWS
2024年10月3日
教程:使用Runway Gen-3 将真人视频与AI生成的视觉特效相结合

教程:使用Runway Gen-3 将真人视频与AI生成的视觉特效相结合

461 VIEWS
2024年8月8日
Meta发布 Meta Spirit LM 一个可以在语音和文本之间进行无缝转换的多模态语音模型

Meta发布 Meta Spirit LM 一个可以在语音和文本之间进行无缝转换的多模态语音模型

276 VIEWS
2024年10月19日
Mem0:为大语言模型提供永久记忆能力  实现跨应用程序的个性化AI体验

Mem0:为大语言模型提供永久记忆能力 实现跨应用程序的个性化AI体验

447 VIEWS
2024年7月22日
Podcastfy:将任何网页、PDF和文本内容自动生成播客音频内容

Podcastfy:将任何网页、PDF和文本内容自动生成播客音频内容

482 VIEWS
2024年10月9日
成立两年首次亮相就放王炸 MiniMax发布三款模型  语音模型、音乐模型和类似Sora视频模型

成立两年首次亮相就放王炸 MiniMax发布三款模型 语音模型、音乐模型和类似Sora视频模型

639 VIEWS
2024年9月2日
Google在其搜索中集成先进的 Gemini 模型 更新一些列功能

Google在其搜索中集成先进的 Gemini 模型 更新一些列功能

150 VIEWS
2024年5月16日
Vozo:AI视频生成器  使用提示重写脚本并重新给视频配音 生成新的视频

Vozo:AI视频生成器 使用提示重写脚本并重新给视频配音 生成新的视频

727 VIEWS
2024年7月23日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版