XiaoHu.AI学院

No Result

View All Result

Login

XiaoHu.AI学院

No Result

View All Result

Home XiaoHu.AI日报

Mistral AI 发布最新一代开源模型：Mistral Large 2 1230亿参数

by 小互

2024年7月25日

in XiaoHu.AI日报

Mistral AI 发布最新一代开源模型：Mistral Large 2 1230亿参数

0

SHARES

275

VIEWS

Share on Facebook Share on Twitter

Mistral AI 宣布了其旗舰模型的最新一代——Mistral Large 2。与前代相比，Mistral Large 2 在代码生成、数学和推理方面显著提升，并提供更强的多语言支持和先进的函数调用能力。

该模型具备128k的上下文窗口，支持多种语言和80多种编程语言。Mistral Large 2 设计用于单节点推理，适合长上下文应用，拥有1230亿参数。

多语言支持：设计时即支持多种语言。
编程能力：在80多种编程语言上进行了训练，如Python、Java、C、C++、JavaScript和Bash，还包括Swift和Fortran等特定语言。
代理能力：具备最佳的代理功能，支持本地函数调用和JSON输出。
高级推理：拥有最先进的数学和推理能力。
大上下文窗口：提供128k的上下文窗口。
MMLU (大规模多语言理解测试): 84.0%
Human Eval (编程能力测试): 92%
GSM8K (数学基准测试): 93%

主要特性

性能

效率与成本：在性能和成本的权衡方面，Mistral Large 2 设立了新的标准。在MMLU评估中，预训练版本的准确率达到了84.0%。
代码与推理：模型经过大量代码数据训练，在代码生成和推理能力上超过了前代模型，与GPT-4o、Claude 3 Opus、Llama 3 405B等领先模型表现相当。通过细致的微调，模型在减少“幻觉”现象方面取得了显著进展。

多语言支持

语言多样性：Mistral Large 2 在多语言数据上训练，特别擅长处理多种语言，如英语、法语、德语、西班牙语、意大利语、葡萄牙语、俄语、中文、日语、韩语、阿拉伯语和印地语。以及包括Python、Java、C、C++、JavaScript和Bash在内的80多种编程语言。
多语言MMLU性能：在多语言MMLU基准测试中的表现优于之前的Mistral Large和其他同类模型。

功能调用

增强的函数调用与检索技能：模型经过训练，能够有效执行并行和顺序的函数调用，适用于复杂业务应用。

评估结果

总体性能

性能/成本：Mistral Large 2 在性能和成本的权衡方面设立了新的标准。在 MMLU（多任务语言理解）评估中，预训练版本的准确率达到了 84.0%，在开源模型中占据了性能/成本的前沿。

代码与推理能力

代码生成基准测试：在代码生成基准测试中，Mistral Large 2 表现优异，与领先的模型如 GPT-4o、Claude 3 Opus 和 Llama 3 405B 相当。
推理能力：模型在推理能力上显著提升，通过细致的微调，减少了生成不准确或无关信息的“幻觉”现象。模型在数学基准测试中的表现证明了其增强的推理和问题解决能力。

代码生成基准的性能精度（所有模型均通过相同的评估管道进行基准测试）

在 MultiPL-E 上的性能精度（除 “纸质 “行外，所有模型均通过相同的评估管道进行基准测试）

多语言支持

多语言 MMLU 性能：Mistral Large 2 在多语言 MMLU 基准测试中的表现优于之前的 Mistral Large 和其他同类模型，特别是在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语方面。

指令跟随与对话能力

指令跟随能力：在指令跟随和对话能力上，Mistral Large 2 表现显著改善。模型在处理精确指令和长多轮对话方面表现特别出色。
对齐基准测试：在 MT-Bench、Wild Bench 和 Arena Hard 基准测试中的表现表明，模型在生成简洁且切中要点的回答方面表现良好。

工具使用和功能调用

Mistral Large 2 配备了增强的函数调用和检索技能，并接受了熟练执行并行和顺序函数调用的培训，使其能够成为复杂业务应用程序的动力引擎。

性能图表

多语言 MMLU 性能

Mistral Large 2 相较于之前的 Mistral Large、Llama 3.1 模型和 Cohere 的 Command R+ 在多语言 MMLU 基准测试中的表现：

多语言 MMLU 的性能（根据基础预训练模型测得）

代码生成与推理性能

Mistral Large 2 在代码生成基准测试、MultiPL-E、GSM8K（8-shot）和 MATH（0-shot, no CoT）生成基准测试中的表现：

生成长度

在 MT Bench 基准测试中的平均生成长度：

详细内容：https://mistral.ai/news/mistral-large-2407/

模型下载：https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

在线体验：la Plateforme

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

AI 工具

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

AI 论文

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

2024年12月23日

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

AI 项目

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

2024年12月22日

No Result

View All Result

Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?

Unlock left : 0

Are you sure want to cancel subscription?