Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

DeepSeek发布开源模型DeepSeek-Coder-V2 在代码和数学能力上超越了GPT-4-Turbo

by 小互
2024年6月17日
in XiaoHu.AI日报
0 0
0
DeepSeek发布开源模型DeepSeek-Coder-V2 在代码和数学能力上超越了GPT-4-Turbo
0
SHARES
1.2k
VIEWS
Share on FacebookShare on Twitter

DeepSeek宣布发布开源模型DeepSeek-Coder-V2,该模型在代码和数学能力上超越了GPT-4-Turbo,成为全球首个在这些领域竞争的开源模型。DeepSeek-Coder-V2基于DeepSeek-V2的模型结构,总参数236B,激活参数21B,具有全球顶尖的代码和数学能力,并在多个排行榜上位居全球第二,次于GPT-4o和GPT-4-Turbo之间。同时,它在中英通用能力上也表现出色,位列国内第一梯队。

DeepSeek-Coder-V2与DeepSeek-V2相比,各有所长,前者更擅长理科,后者更擅长文科。该模型和相关代码、论文全部开源,免费商用,无需申请,提供两种规模:236B和16B,并支持API服务和本地私有化部署。

全球顶尖的代码、数学能力

DeepSeek-Coder-V2 沿用 DeepSeek-V2 的模型结构,总参数 236B,激活 21B,在代码、数学的多个榜单上位居全球第二,介于最强闭源模型 GPT-4o 和 GPT-4-Turbo 之间。
国内第一梯队的通用能力

在拥有世界前列的代码、数学能力的同时,DeepSeek-Coder-V2 还具有良好的通用性能,在中英通用能力上位列国内第一梯队。

模型架构

DeepSeek-Coder-V2采用专家混合(Mixture-of-Experts, MoE)架构,专门设计用于增强代码和数学推理能力。以下是该模型的一些关键架构特点:

  • 专家混合(MoE)架构:通过多个专家模型的协同工作来处理复杂任务,显著提高了模型的推理能力和效率。
  • 进一步预训练:基于DeepSeek-Coder-V2-Base,从高质量和多源语料库中提取6万亿个token进行预训练,增强了编码和数学推理能力。
  • 多语言支持:支持的编程语言从86种扩展到338种,适应更多样化的开发需求。
  • 扩展上下文长度:支持的上下文长度从16K扩展到128K,能够处理更长的输入内容。

模型规模

DeepSeek-Coder-V2提供了两种规模的模型,分别为236B参数和16B参数,满足不同的应用需求:

  • DeepSeek-Coder-V2:总参 236B(即官网和 API 版模型),单机 8*80G 可部署,单机 8*80G 可微调(需要技巧)
  • DeepSeek-Coder-V2-Lite:总参 16B,激活 2.4B,支持 FIM,代码能力接近 DeepSeek-Coder-33B(V1),单卡 40G 可部署,单机 8*80G 可训练。
DeepSeek-Coder-V2 和 DeepSeek-V2 的差异

虽然 DeepSeek-Coder-V2 在评测中综合得分更高,但在实际应用中,两个模型各有所长。DeepSeek-V2 是文科生,DeepSeek-Coder-V2 是理科生,精通的技能点不同:

API服务

DeepSeek-Coder-V2 API 支持 32K 上下文,价格和 DeepSeek-V2 一致,还是大家熟悉的低价:

评估结果

在标准的基准测试中,DeepSeek-Coder-V2的性能优于一些闭源模型,例如GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro,特别是在代码生成和数学推理的测试中。

1. 代码生成

在多个代码生成基准测试中,DeepSeek-Coder-V2表现优异,特别是在HumanEval、MBPP+、LiveCodeBench和USACO等测试中,显著超越了许多闭源和开源模型。

模型 参数量 HumanEval MBPP+ LiveCodeBench USACO
GPT-4o-0513 闭源 91.0 73.5 43.4 18.8
GPT-4-Turbo-0409 闭源 88.2 72.2 45.7 12.3
GPT-4-Turbo-1106 闭源 87.8 69.3 37.1 11.1
DeepSeek-Coder-V2-Instruct 236B 90.2 76.2 43.4 12.1
DeepSeek-Coder-V2-Lite-Instruct 16B 81.1 68.8 24.3 6.5

2. 代码补全

在RepoBench和HumanEval FIM测试中,DeepSeek-Coder-V2也显示出强大的代码补全能力。

模型 参数量 RepoBench (Python) RepoBench (Java) HumanEval FIM
GPT-4o-0513 闭源 46.1 45.7 86.4
DeepSeek-Coder-V2-Instruct 236B 43.1 44.8 86.4
DeepSeek-Coder-V2-Lite-Base 16B 38.9 43.3 86.4

3. 代码修复

在Defects4J和SWE-Bench测试中,DeepSeek-Coder-V2的表现也十分突出。

模型 参数量 Defects4J SWE-Bench Aider
GPT-4o-0513 闭源 26.1 26.7 72.9
GPT-4-Turbo-0409 闭源 24.3 18.3 63.9
DeepSeek-Coder-V2-Instruct 236B 21.0 12.7 73.7
DeepSeek-Coder-V2-Lite-Instruct 16B 9.2 0.0 44.4

4. 数学推理

在GSM8K、MATH、AIME 2024和Math Odyssey等数学推理基准测试中,DeepSeek-Coder-V2表现卓越。

模型 参数量 GSM8K MATH AIME 2024 Math Odyssey
GPT-4o-0513 闭源 95.8 76.6 2/30 53.2
GPT-4-Turbo-0409 闭源 93.7 73.4 3/30 46.8
DeepSeek-Coder-V2-Instruct 236B 94.9 75.7 4/30 53.7
DeepSeek-Coder-V2-Lite-Instruct 16B 86.4 61.8 0/30 44.4

5. 自然语言处理

在BBH、MMLU、ARC等自然语言处理基准测试中,DeepSeek-Coder-V2也取得了令人瞩目的成绩。

测试 领域 DeepSeek-V2-Lite Chat DeepSeek-Coder-V2-Lite Instruct DeepSeek-V2 Chat DeepSeek-Coder-V2 Instruct
BBH 英文 48.1 61.2 79.7 83.9
MMLU 英文 55.7 60.1 78.1 79.2
ARC-Easy 英文 86.1 88.9 98.1 97.4
ARC-Challenge 英文 73.4 77.4 92.3 92.8
TriviaQA 英文 65.2 59.5 86.7 82.3
NaturalQuestions 英文 35.5 30.8 53.4 47.5
CLUEWSC 中文 80.0 76.5 89.9 85.9
C-Eval 中文 60.1 61.6 78.0 79.4
CMMLU 中文 62.5 62.7 81.6 80.9

6. 上下文窗口

在Needle In A Haystack (NIAH)测试中,DeepSeek-Coder-V2在所有上下文窗口长度(最长达128K)上表现出色。

模型下载:

  • DeepSeek-Coder-V2-Lite-Base
  • DeepSeek-Coder-V2-Lite-Instruct
  • DeepSeek-Coder-V2-Base
  • DeepSeek-Coder-V2-Instruct

在线体验: coder.deepseek.com

GitHub:https://github.com/deepseek-ai/DeepSeek-Coder-V2

技术报告:
https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

苹果发布 Apple Intelligence 智能助手 深度个性化 支持跨应用交互操作

WWDC 2024 发布会Apple Intelligence中文介绍完整视频

335 VIEWS
2024年6月11日
哈佛大学学生开发出一种 AI 眼镜 看你一眼即可扒光你的所有个人信息

哈佛大学学生开发出一种 AI 眼镜 看你一眼即可扒光你的所有个人信息

336 VIEWS
2024年10月4日
Hebbia获得近1亿美元B轮融资  利用AI一次可以处理多达数百万份文档

Hebbia获得近1亿美元B轮融资 利用AI一次可以处理多达数百万份文档

294 VIEWS
2024年7月28日
教程:借助伪代码让 ChatGPT 一次生成一套绘本图像

教程:借助伪代码让 ChatGPT 一次生成一套绘本图像

776 VIEWS
2024年6月16日
Facet AI:可以精确控制图像元素的展现 适合制作广告和专业图像

Facet AI:可以精确控制图像元素的展现 适合制作广告和专业图像

822 VIEWS
2024年4月8日
Google开发了一种名为TimesFM的时间序列预测模型 可预测未来

Google开发了一种名为TimesFM的时间序列预测模型 可预测未来

497 VIEWS
2024年5月12日
斯坦福医学院人工智能模型SyntheMol 帮助科学家能合成新的药物

斯坦福医学院人工智能模型SyntheMol 帮助科学家能合成新的药物

154 VIEWS
2024年4月2日
OpenAI 推出 ChatGPT Edu 为大学设计的专用版本

OpenAI 推出 ChatGPT Edu 为大学设计的专用版本

173 VIEWS
2024年5月31日
Midjourney 角色人物一致性功能上线 复杂文本理解能力提升

Midjourney 角色人物一致性功能上线 复杂文本理解能力提升

33 VIEWS
2024年3月12日
成立两年首次亮相就放王炸 MiniMax发布三款模型  语音模型、音乐模型和类似Sora视频模型

成立两年首次亮相就放王炸 MiniMax发布三款模型 语音模型、音乐模型和类似Sora视频模型

639 VIEWS
2024年9月2日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版