Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

DeepSeek发布236B参数 160位专家的专家混合(MoE)模型:DeepSeek-V2

by 小互
2024年5月7日
in AI 项目, XiaoHu.AI日报
0 0
0
DeepSeek发布236B参数 160位专家的专家混合(MoE)模型:DeepSeek-V2
0
SHARES
705
VIEWS
Share on FacebookShare on Twitter

DeepSeek-V2,一个专家混合(MoE)语言模型,其特点是经济高效的训练和推理。它包含 2360 亿个总参数,其中每个token激活了 21 亿个参数。与 DeepSeek 67B 相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5%的训练成本,将 KV 缓存减少了 93.3%,并将最大生成吞吐量提高了 5.76 倍。

在 AlignBench 中排名前三,超越 GPT-4,接近 GPT-4-Turbo。 在 MT-Bench 中排名顶尖,与 LLaMA3-70B 不相上下,并且胜过 Mixtral 8x22B。 专注于数学、编码和推理。

DeepSeek-V2 完全开源,可免费用于商业用途。

🧮 236B参数,其中21B在生成过程中被激活
👨‍🏫 160位专家,其中有6位在生成中活跃
🚀 在英文基准测试中与 Mixtral 8x22B 匹配
🪟  128k上下文
🔠 在 8.1 万亿标记上训练
🌱 用于在 bf16 8x 80GB GPU 上进行推理
❌ 接受英语和中文语言训练

  • 模型概述: DeepSeek-V2-Chat是一个先进的Mixture-of-Experts(MoE)语言模型,具有高效的训练和推理能力,总参数量为2360亿,每个token激活21亿参数。与之前的版本相比,该模型在性能方面显著提升,并降低了训练成本、KV缓存需求以及生成开销。

  • 总体架构:

    • Mixture-of-Experts(MoE)结构: DeepSeek-V2-Chat基于混合专家的设计,允许每个输入token仅激活部分参数,大幅降低内存使用并提高计算效率。
    • 参数规模: 总参数量达到2360亿,但每个token激活21亿参数,从而实现性能与资源利用的平衡。
  • 长上下文窗口: 支持长达128K的上下文窗口。
  • 性能优势:

    • 与Dense模型DeepSeek 67B相比,DeepSeek-V2在多项标准基准测试中表现更强。
    • 减少训练成本42.5%,KV缓存降低93.3%,并将最大生成吞吐量提高5.76倍。
  • 数据训练: DeepSeek-V2在包含8.1万亿token的多样化高质量语料库上进行预训练,并通过监督微调(SFT)和强化学习(RL)来充分发挥模型潜力。

评估结果

  1. 标准基准测试:

    • MMLU(英语): 用于多任务推理和知识评估。DeepSeek-V2在该基准上达到了78.5分。
    • BBH(英语): 包含一系列复杂的推理任务。DeepSeek-V2的成绩为78.9分。
    • C-Eval(中文): 中国大型学术基准。DeepSeek-V2在这项测试中得分81.7。
    • CMMLU(中文): 中文多任务推理基准,DeepSeek-V2取得84.0分。
  2. 代码和数学基准:

    • HumanEval(代码): 用于评估编程能力,DeepSeek-V2得分为40.9。
    • MBPP(代码): 以Python编程任务为主,模型得分66.6。
    • GSM8K(数学): 小学生级别的数学题目,DeepSeek-V2得分79.2。
    • Math(数学): 包含各类数学题目,DeepSeek-V2达到了43.6的分数。
  3. 对话生成基准:

    • AlpacaEval 2.0和MTBench(英语): 这两项评估了DeepSeek-V2-Chat-RL在英语对话生成中的竞争力。
    • AlignBench(中文): 专门用于评估中文对话生成能力。在此基准上,DeepSeek-V2-Chat-RL取得了7.91的高分。
  4. 长上下文窗口评估:

    • Needle in a Haystack(NIAH): 评估了模型在长达128K的上下文窗口中的性能,DeepSeek-V2在各长度测试中表现稳定。
  5. 代码基准:

    • LiveCodeBench: 专注于实时编码挑战。DeepSeek-V2的Pass@1得分高于许多其他模型,证明其在实时编码任务中的有效性。

 

价格很美丽

模型下载:

DeepSeek-V2 128k 🤗 HuggingFace
DeepSeek-V2-Chat(RL) 128k 🤗 HuggingFace

Huggingface:https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat

论文:https://github.com/deepseek-ai/DeepSeek-V2/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
615
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Google  NotebookLM推出 “Audio Overview” 的功能 可以将任意文档转换成播客对话

Google NotebookLM推出 “Audio Overview” 的功能 可以将任意文档转换成播客对话

911 VIEWS
2024年9月27日
Cohere Compass:一种面向多方面数据的先进基础嵌入模型

Cohere Compass:一种面向多方面数据的先进基础嵌入模型

79 VIEWS
2024年4月16日
Midjourney“角色参考(Character Reference)”教程

Midjourney“角色参考(Character Reference)”教程

51 VIEWS
2024年3月20日
Octopus-v2:可以在移动设备上运行的2B LLMs ,性能优于 GPT-4

Octopus-v2:可以在移动设备上运行的2B LLMs ,性能优于 GPT-4

774 VIEWS
2024年4月8日
Eye Contact:目光矫正 API 自动调整视频、直播中眼睛的视线方向

Eye Contact:目光矫正 API 自动调整视频、直播中眼睛的视线方向

412 VIEWS
2024年10月17日
Perplexity 接入 Yelp 的评论数据 融入到其聊天机器人服务中

Perplexity 接入 Yelp 的评论数据 融入到其聊天机器人服务中

21 VIEWS
2024年3月13日
Alter 3:利用 GPT-4驱动的人形机器人 将自然语言命令转换为机器人动作

Alter 3:利用 GPT-4驱动的人形机器人 将自然语言命令转换为机器人动作

208 VIEWS
2024年6月29日
Prompt 学习地图 24 | 流程误区 –  执行第一步的重要性

Prompt 学习地图 24 | 流程误区 – 执行第一步的重要性

109 VIEWS
2024年5月3日
SpeechVerse:通用音频语言模型 可进行自动语音识别、语音翻译、情感识别

SpeechVerse:通用音频语言模型 可进行自动语音识别、语音翻译、情感识别

105 VIEWS
2024年5月23日
AniPortrait:根据音频和图像输入 生成会说话、唱歌的动态视频

AniPortrait:根据音频和图像输入 生成会说话、唱歌的动态视频

336 VIEWS
2024年3月27日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版