Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Mistral 发布了2个7B小模型: Codestral Mamba 7B 和 Mathstral 7B 

by 小互
2024年7月17日
in XiaoHu.AI日报
0 0
0
Mistral 发布了2个7B小模型: Codestral Mamba 7B 和 Mathstral 7B 
0
SHARES
343
VIEWS
Share on FacebookShare on Twitter

Mistral 通过 Mamba 2架构训练了一个7B 的代码模型:Codestral Mamba,以及新推出一个与 Mistral 7B 相同的架构的数学推理和科学发现的模型:Mathstral 7B

Codestral Mamba超越了 DeepSeek QwenCode,成为小于 10B 参数的最佳模型,并且可以与 Codestral 22B 竞争,并且支持256K的上下文。

与传统的Transformer模型不同,Mamba模型在处理时间上更高效,并且可以处理无限长度的输入序列。用户可以免费使用、修改和分发该模型,适用于各种代码相关的应用场景。

Codestral Mamba 具有以下特点:
  1. 线性时间推理:Mamba 模型在推理时间上具有线性时间优势,这使得它可以更高效地处理大规模输入数据。

  2. 无限长度序列建模:理论上可以处理无限长度的序列,使其在处理长文本或代码时表现出色。

  3. 高级代码和推理能力:该模型专门针对代码生产力进行了训练,具备高级的代码理解和推理能力,可以在代码相关任务中表现优异。

  4. 高效上下文检索:在上下文检索能力测试中,Mamba 模型能够处理多达 256k tokens 的上下文,适合需要处理大量上下文信息的应用场景。

  5. 多平台部署:

    • 支持通过 mistral-inference SDK 部署,该 SDK 依赖于 Mamba 的 GitHub 仓库中的参考实现。
    • 也可以通过 TensorRT-LLM 部署,并计划在 llama.cpp 中提供本地推理支持。

与其他开源模型对比,Codestral Mamba 的性能如下:

  • CodeGemma 1.1 7B:在大多数测试中,Codestral Mamba 表现更好,特别是在 HumanEval 和 HumanEval C++ 测试中。
  • CodeLlama 7B:Codestral Mamba 明显优于 CodeLlama 7B,特别是在 HumanEval 和 MBPP 基准测试中。
  • DeepSeek v1.5 7B:尽管 DeepSeek 在某些基准上表现较好,但总体而言,Codestral Mamba 在 HumanEval 和 HumanEval C++ 中表现更为突出。
  • Codestral 22B:相比于更大的 Codestral 22B,Mamba 在一些测试中略逊一筹,但在 HumanEval 和 HumanEval Bash 中表现依然优异。
  • CodeLlama 34B:Codestral Mamba 的表现超过了 CodeLlama 34B 在多数测试中的结果。

官方介绍:https://mistral.ai/news/codestral-mamba/

模型下载:https://huggingface.co/mistralai/mamba-codestral-7B-v0.1

Mathstral 的特点:
  1. 高效数学推理:专为处理复杂、多步逻辑推理的高级数学问题而设计,在数学和科学领域表现出色,能够处理复杂的多步推理问题,如数学证明和复杂的科学计算。

  2. 大上下文窗口:拥有32k的上下文窗口,能够处理和理解更大范围的输入信息,对于复杂问题和长文本推理非常有用。

  3. 先进的性能:

    • 在各种行业标准基准测试中表现优异,例如在MATH测试中取得56.6%的成绩,在MMLU测试中取得63.47%的成绩。
    • 使用多数投票方法时,Mathstral 7B在MATH测试中的得分可以提高到68.37%,在64个候选者中使用强奖励模型时得分为74.59%。
  4. 模型架构:Mathstral 7B 构建在Mistral 7B的基础上,继承了其强大的基础能力和架构优势。该模型具有7B参数,

  5. 定制和微调能力:

    • 用户可以通过mistral-inference和mistral-finetune工具进行模型部署和微调,以满足特定需求。
    • 提供灵活的微调能力,用户可以根据具体应用场景对模型进行优化。

官方介绍:https://mistral.ai/news/codestral-mamba/

模型下载:https://huggingface.co/mistralai/mathstral-7B-v0.1

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

麻省理工大学开发出一种对大模型校准的方法 校准模型输出答案准确性

麻省理工大学开发出一种对大模型校准的方法 校准模型输出答案准确性

103 VIEWS
2024年8月3日
Meta AI 公布了多项新的研究成果 包括4个可用的AI模型和2个额外的研究成果

Meta AI 公布了多项新的研究成果 包括4个可用的AI模型和2个额外的研究成果

236 VIEWS
2024年6月19日
Libcimbar:无需联网、蓝牙、NFC  扫描二维码即可传输文件

Libcimbar:无需联网、蓝牙、NFC 扫描二维码即可传输文件

1.8k VIEWS
2024年9月20日
BinaryVectorDB: 二进制向量数据库 速度提高20倍 成本降低100倍

BinaryVectorDB: 二进制向量数据库 速度提高20倍 成本降低100倍

43 VIEWS
2024年3月30日

Prompt 学习地图 27 | 理论&实践 – Meta Prompts 用提示词设计提示词

300 VIEWS
2024年6月12日
Claude发布函数调用工具:Tool use 允许模型与外部系统进行交互

Claude发布函数调用工具:Tool use 允许模型与外部系统进行交互

366 VIEWS
2024年4月6日
InstanceDiffusion:允许用户以前所未有的精度控制图片中每个细节

InstanceDiffusion:允许用户以前所未有的精度控制图片中每个细节

67 VIEWS
2024年3月7日
DETECT-2B :音频深度伪造检测工具 可以在只200毫秒内检测30多种语言的音频

DETECT-2B :音频深度伪造检测工具 可以在只200毫秒内检测30多种语言的音频

177 VIEWS
2024年7月18日
Perplexity 联合创始人兼产品主管 揭秘该公司借助AI形成的独特产品开发方法

Perplexity 联合创始人兼产品主管 揭秘该公司借助AI形成的独特产品开发方法

448 VIEWS
2024年7月27日
全面了解和掌握 Midjourney 中的各种摄影灯光照明技巧→ 自然采光

全面了解和掌握 Midjourney 中的各种摄影灯光照明技巧→ 人工照明

117 VIEWS
2024年4月26日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版