Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

DeepSeek发布开源模型DeepSeek-Coder-V2 在代码和数学能力上超越了GPT-4-Turbo

by 小互
2024年6月17日
in XiaoHu.AI日报
0 0
0
DeepSeek发布开源模型DeepSeek-Coder-V2 在代码和数学能力上超越了GPT-4-Turbo
0
SHARES
1.2k
VIEWS
Share on FacebookShare on Twitter

DeepSeek宣布发布开源模型DeepSeek-Coder-V2,该模型在代码和数学能力上超越了GPT-4-Turbo,成为全球首个在这些领域竞争的开源模型。DeepSeek-Coder-V2基于DeepSeek-V2的模型结构,总参数236B,激活参数21B,具有全球顶尖的代码和数学能力,并在多个排行榜上位居全球第二,次于GPT-4o和GPT-4-Turbo之间。同时,它在中英通用能力上也表现出色,位列国内第一梯队。

DeepSeek-Coder-V2与DeepSeek-V2相比,各有所长,前者更擅长理科,后者更擅长文科。该模型和相关代码、论文全部开源,免费商用,无需申请,提供两种规模:236B和16B,并支持API服务和本地私有化部署。

全球顶尖的代码、数学能力

DeepSeek-Coder-V2 沿用 DeepSeek-V2 的模型结构,总参数 236B,激活 21B,在代码、数学的多个榜单上位居全球第二,介于最强闭源模型 GPT-4o 和 GPT-4-Turbo 之间。
国内第一梯队的通用能力

在拥有世界前列的代码、数学能力的同时,DeepSeek-Coder-V2 还具有良好的通用性能,在中英通用能力上位列国内第一梯队。

模型架构

DeepSeek-Coder-V2采用专家混合(Mixture-of-Experts, MoE)架构,专门设计用于增强代码和数学推理能力。以下是该模型的一些关键架构特点:

  • 专家混合(MoE)架构:通过多个专家模型的协同工作来处理复杂任务,显著提高了模型的推理能力和效率。
  • 进一步预训练:基于DeepSeek-Coder-V2-Base,从高质量和多源语料库中提取6万亿个token进行预训练,增强了编码和数学推理能力。
  • 多语言支持:支持的编程语言从86种扩展到338种,适应更多样化的开发需求。
  • 扩展上下文长度:支持的上下文长度从16K扩展到128K,能够处理更长的输入内容。

模型规模

DeepSeek-Coder-V2提供了两种规模的模型,分别为236B参数和16B参数,满足不同的应用需求:

  • DeepSeek-Coder-V2:总参 236B(即官网和 API 版模型),单机 8*80G 可部署,单机 8*80G 可微调(需要技巧)
  • DeepSeek-Coder-V2-Lite:总参 16B,激活 2.4B,支持 FIM,代码能力接近 DeepSeek-Coder-33B(V1),单卡 40G 可部署,单机 8*80G 可训练。
DeepSeek-Coder-V2 和 DeepSeek-V2 的差异

虽然 DeepSeek-Coder-V2 在评测中综合得分更高,但在实际应用中,两个模型各有所长。DeepSeek-V2 是文科生,DeepSeek-Coder-V2 是理科生,精通的技能点不同:

API服务

DeepSeek-Coder-V2 API 支持 32K 上下文,价格和 DeepSeek-V2 一致,还是大家熟悉的低价:

评估结果

在标准的基准测试中,DeepSeek-Coder-V2的性能优于一些闭源模型,例如GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro,特别是在代码生成和数学推理的测试中。

1. 代码生成

在多个代码生成基准测试中,DeepSeek-Coder-V2表现优异,特别是在HumanEval、MBPP+、LiveCodeBench和USACO等测试中,显著超越了许多闭源和开源模型。

模型 参数量 HumanEval MBPP+ LiveCodeBench USACO
GPT-4o-0513 闭源 91.0 73.5 43.4 18.8
GPT-4-Turbo-0409 闭源 88.2 72.2 45.7 12.3
GPT-4-Turbo-1106 闭源 87.8 69.3 37.1 11.1
DeepSeek-Coder-V2-Instruct 236B 90.2 76.2 43.4 12.1
DeepSeek-Coder-V2-Lite-Instruct 16B 81.1 68.8 24.3 6.5

2. 代码补全

在RepoBench和HumanEval FIM测试中,DeepSeek-Coder-V2也显示出强大的代码补全能力。

模型 参数量 RepoBench (Python) RepoBench (Java) HumanEval FIM
GPT-4o-0513 闭源 46.1 45.7 86.4
DeepSeek-Coder-V2-Instruct 236B 43.1 44.8 86.4
DeepSeek-Coder-V2-Lite-Base 16B 38.9 43.3 86.4

3. 代码修复

在Defects4J和SWE-Bench测试中,DeepSeek-Coder-V2的表现也十分突出。

模型 参数量 Defects4J SWE-Bench Aider
GPT-4o-0513 闭源 26.1 26.7 72.9
GPT-4-Turbo-0409 闭源 24.3 18.3 63.9
DeepSeek-Coder-V2-Instruct 236B 21.0 12.7 73.7
DeepSeek-Coder-V2-Lite-Instruct 16B 9.2 0.0 44.4

4. 数学推理

在GSM8K、MATH、AIME 2024和Math Odyssey等数学推理基准测试中,DeepSeek-Coder-V2表现卓越。

模型 参数量 GSM8K MATH AIME 2024 Math Odyssey
GPT-4o-0513 闭源 95.8 76.6 2/30 53.2
GPT-4-Turbo-0409 闭源 93.7 73.4 3/30 46.8
DeepSeek-Coder-V2-Instruct 236B 94.9 75.7 4/30 53.7
DeepSeek-Coder-V2-Lite-Instruct 16B 86.4 61.8 0/30 44.4

5. 自然语言处理

在BBH、MMLU、ARC等自然语言处理基准测试中,DeepSeek-Coder-V2也取得了令人瞩目的成绩。

测试 领域 DeepSeek-V2-Lite Chat DeepSeek-Coder-V2-Lite Instruct DeepSeek-V2 Chat DeepSeek-Coder-V2 Instruct
BBH 英文 48.1 61.2 79.7 83.9
MMLU 英文 55.7 60.1 78.1 79.2
ARC-Easy 英文 86.1 88.9 98.1 97.4
ARC-Challenge 英文 73.4 77.4 92.3 92.8
TriviaQA 英文 65.2 59.5 86.7 82.3
NaturalQuestions 英文 35.5 30.8 53.4 47.5
CLUEWSC 中文 80.0 76.5 89.9 85.9
C-Eval 中文 60.1 61.6 78.0 79.4
CMMLU 中文 62.5 62.7 81.6 80.9

6. 上下文窗口

在Needle In A Haystack (NIAH)测试中,DeepSeek-Coder-V2在所有上下文窗口长度(最长达128K)上表现出色。

模型下载:

  • DeepSeek-Coder-V2-Lite-Base
  • DeepSeek-Coder-V2-Lite-Instruct
  • DeepSeek-Coder-V2-Base
  • DeepSeek-Coder-V2-Instruct

在线体验: coder.deepseek.com

GitHub:https://github.com/deepseek-ai/DeepSeek-Coder-V2

技术报告:
https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
615
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Jina AI发布 Jina ColBERT v2: 一个多语言的晚期交互信息检索模型

Jina AI发布 Jina ColBERT v2: 一个多语言的晚期交互信息检索模型

300 VIEWS
2024年9月3日
人工智能能否读取你的思想?

人工智能能否读取你的思想?

173 VIEWS
2024年10月7日
分析了1400万篇论文发现 2024年发布的研究论文中 至少有10%使用了ChatGPT

分析了1400万篇论文发现 2024年发布的研究论文中 至少有10%使用了ChatGPT

256 VIEWS
2024年6月24日
俄罗斯科技巨头Yandex 开源了一个LLM培训工具 可节省高达20%的 GPU 资源

俄罗斯科技巨头Yandex 开源了一个LLM培训工具 可节省高达20%的 GPU 资源

67 VIEWS
2024年6月13日
AI 学术搜索引擎 Consensus 完成 1150 万美元 A 轮融资 年化收入达150万美元

AI 学术搜索引擎 Consensus 完成 1150 万美元 A 轮融资 年化收入达150万美元

313 VIEWS
2024年8月19日
Anthropic 罕见的主动公布了 Claude 的系统提示词 并承诺将定期更新

Anthropic 罕见的主动公布了 Claude 的系统提示词 并承诺将定期更新

1.3k VIEWS
2024年8月28日

Prompt 学习地图 29 | 国产大模型及提示词适配

324 VIEWS
2024年5月20日
Whomane:不到100美金AI Pin替代 一个开源的人工智能可穿戴相机设备

Whomane:不到100美金AI Pin替代 一个开源的人工智能可穿戴相机设备

50 VIEWS
2024年3月11日
Prompt 学习地图 16 | 复杂任务 – 结构化的有效性

Prompt 学习地图 16 | 复杂任务 – 结构化的有效性

148 VIEWS
2024年4月18日
Coconut:连续思维链 一种新的大语言模型推理方法 直接在内部思考

Coconut:连续思维链 一种新的大语言模型推理方法 直接在内部思考

359 VIEWS
2024年12月12日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版