Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Mistral 发布了2个7B小模型: Codestral Mamba 7B 和 Mathstral 7B 

by 小互
2024年7月17日
in XiaoHu.AI日报
0 0
0
Mistral 发布了2个7B小模型: Codestral Mamba 7B 和 Mathstral 7B 
0
SHARES
347
VIEWS
Share on FacebookShare on Twitter

Mistral 通过 Mamba 2架构训练了一个7B 的代码模型:Codestral Mamba,以及新推出一个与 Mistral 7B 相同的架构的数学推理和科学发现的模型:Mathstral 7B

Codestral Mamba超越了 DeepSeek QwenCode,成为小于 10B 参数的最佳模型,并且可以与 Codestral 22B 竞争,并且支持256K的上下文。

与传统的Transformer模型不同,Mamba模型在处理时间上更高效,并且可以处理无限长度的输入序列。用户可以免费使用、修改和分发该模型,适用于各种代码相关的应用场景。

Codestral Mamba 具有以下特点:
  1. 线性时间推理:Mamba 模型在推理时间上具有线性时间优势,这使得它可以更高效地处理大规模输入数据。

  2. 无限长度序列建模:理论上可以处理无限长度的序列,使其在处理长文本或代码时表现出色。

  3. 高级代码和推理能力:该模型专门针对代码生产力进行了训练,具备高级的代码理解和推理能力,可以在代码相关任务中表现优异。

  4. 高效上下文检索:在上下文检索能力测试中,Mamba 模型能够处理多达 256k tokens 的上下文,适合需要处理大量上下文信息的应用场景。

  5. 多平台部署:

    • 支持通过 mistral-inference SDK 部署,该 SDK 依赖于 Mamba 的 GitHub 仓库中的参考实现。
    • 也可以通过 TensorRT-LLM 部署,并计划在 llama.cpp 中提供本地推理支持。

与其他开源模型对比,Codestral Mamba 的性能如下:

  • CodeGemma 1.1 7B:在大多数测试中,Codestral Mamba 表现更好,特别是在 HumanEval 和 HumanEval C++ 测试中。
  • CodeLlama 7B:Codestral Mamba 明显优于 CodeLlama 7B,特别是在 HumanEval 和 MBPP 基准测试中。
  • DeepSeek v1.5 7B:尽管 DeepSeek 在某些基准上表现较好,但总体而言,Codestral Mamba 在 HumanEval 和 HumanEval C++ 中表现更为突出。
  • Codestral 22B:相比于更大的 Codestral 22B,Mamba 在一些测试中略逊一筹,但在 HumanEval 和 HumanEval Bash 中表现依然优异。
  • CodeLlama 34B:Codestral Mamba 的表现超过了 CodeLlama 34B 在多数测试中的结果。

官方介绍:https://mistral.ai/news/codestral-mamba/

模型下载:https://huggingface.co/mistralai/mamba-codestral-7B-v0.1

Mathstral 的特点:
  1. 高效数学推理:专为处理复杂、多步逻辑推理的高级数学问题而设计,在数学和科学领域表现出色,能够处理复杂的多步推理问题,如数学证明和复杂的科学计算。

  2. 大上下文窗口:拥有32k的上下文窗口,能够处理和理解更大范围的输入信息,对于复杂问题和长文本推理非常有用。

  3. 先进的性能:

    • 在各种行业标准基准测试中表现优异,例如在MATH测试中取得56.6%的成绩,在MMLU测试中取得63.47%的成绩。
    • 使用多数投票方法时,Mathstral 7B在MATH测试中的得分可以提高到68.37%,在64个候选者中使用强奖励模型时得分为74.59%。
  4. 模型架构:Mathstral 7B 构建在Mistral 7B的基础上,继承了其强大的基础能力和架构优势。该模型具有7B参数,

  5. 定制和微调能力:

    • 用户可以通过mistral-inference和mistral-finetune工具进行模型部署和微调,以满足特定需求。
    • 提供灵活的微调能力,用户可以根据具体应用场景对模型进行优化。

官方介绍:https://mistral.ai/news/codestral-mamba/

模型下载:https://huggingface.co/mistralai/mathstral-7B-v0.1

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
494
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
346
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
460
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
284
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
636
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
435

Recommendeds

OpenBioLLM-8B:基于 Llama-3-8B 微调训练的生物医学领域专门模型

OpenBioLLM-8B:基于 Llama-3-8B 微调训练的生物医学领域专门模型

152 VIEWS
2024年4月29日
Adobe Premiere Pro 推出多项新的生成式AI功能 大幅提高视频编辑效率

Adobe Premiere Pro 推出多项新的生成式AI功能 大幅提高视频编辑效率

303 VIEWS
2024年10月15日
18 节课教授你开始构建人工智能应用程序所需的一切知识

18 节课教授你开始构建人工智能应用程序所需的一切知识

277 VIEWS
2024年4月3日
LongWriter:让LLMs能够生成超过 10000 字甚至20000 字连贯高质量的文本

LongWriter:让LLMs能够生成超过 10000 字甚至20000 字连贯高质量的文本

610 VIEWS
2024年8月19日
Relightful :自动调节人像光照条件,与任意背景的自然融合

Relightful :自动调节人像光照条件,与任意背景的自然融合

89 VIEWS
2024年3月5日
使用Domo AI 和Udio 创建动漫风格音乐视频的详细教程

使用Domo AI 和Udio 创建动漫风格音乐视频的详细教程

251 VIEWS
2024年6月11日
Vozo:AI视频生成器  使用提示重写脚本并重新给视频配音 生成新的视频

Vozo:AI视频生成器 使用提示重写脚本并重新给视频配音 生成新的视频

743 VIEWS
2024年7月23日
VimTS:自动识别图像或视频序中的文本信息并精确提取内容

VimTS:自动识别图像或视频序中的文本信息并精确提取内容

97 VIEWS
2024年5月13日
CAT3D:1分钟从任意数量的图像生成一致的高质量3D新视图

CAT3D:1分钟从任意数量的图像生成一致的高质量3D新视图

201 VIEWS
2024年5月18日
ReadKidz:利用AI一键生成儿童绘本故事书和多媒体故事 可随心定制设定

ReadKidz:利用AI一键生成儿童绘本故事书和多媒体故事 可随心定制设定

1.5k VIEWS
2024年11月6日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版