Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Mistral 发布了2个7B小模型: Codestral Mamba 7B 和 Mathstral 7B 

by 小互
2024年7月17日
in XiaoHu.AI日报
0 0
0
Mistral 发布了2个7B小模型: Codestral Mamba 7B 和 Mathstral 7B 
0
SHARES
343
VIEWS
Share on FacebookShare on Twitter

Mistral 通过 Mamba 2架构训练了一个7B 的代码模型:Codestral Mamba,以及新推出一个与 Mistral 7B 相同的架构的数学推理和科学发现的模型:Mathstral 7B

Codestral Mamba超越了 DeepSeek QwenCode,成为小于 10B 参数的最佳模型,并且可以与 Codestral 22B 竞争,并且支持256K的上下文。

与传统的Transformer模型不同,Mamba模型在处理时间上更高效,并且可以处理无限长度的输入序列。用户可以免费使用、修改和分发该模型,适用于各种代码相关的应用场景。

Codestral Mamba 具有以下特点:
  1. 线性时间推理:Mamba 模型在推理时间上具有线性时间优势,这使得它可以更高效地处理大规模输入数据。

  2. 无限长度序列建模:理论上可以处理无限长度的序列,使其在处理长文本或代码时表现出色。

  3. 高级代码和推理能力:该模型专门针对代码生产力进行了训练,具备高级的代码理解和推理能力,可以在代码相关任务中表现优异。

  4. 高效上下文检索:在上下文检索能力测试中,Mamba 模型能够处理多达 256k tokens 的上下文,适合需要处理大量上下文信息的应用场景。

  5. 多平台部署:

    • 支持通过 mistral-inference SDK 部署,该 SDK 依赖于 Mamba 的 GitHub 仓库中的参考实现。
    • 也可以通过 TensorRT-LLM 部署,并计划在 llama.cpp 中提供本地推理支持。

与其他开源模型对比,Codestral Mamba 的性能如下:

  • CodeGemma 1.1 7B:在大多数测试中,Codestral Mamba 表现更好,特别是在 HumanEval 和 HumanEval C++ 测试中。
  • CodeLlama 7B:Codestral Mamba 明显优于 CodeLlama 7B,特别是在 HumanEval 和 MBPP 基准测试中。
  • DeepSeek v1.5 7B:尽管 DeepSeek 在某些基准上表现较好,但总体而言,Codestral Mamba 在 HumanEval 和 HumanEval C++ 中表现更为突出。
  • Codestral 22B:相比于更大的 Codestral 22B,Mamba 在一些测试中略逊一筹,但在 HumanEval 和 HumanEval Bash 中表现依然优异。
  • CodeLlama 34B:Codestral Mamba 的表现超过了 CodeLlama 34B 在多数测试中的结果。

官方介绍:https://mistral.ai/news/codestral-mamba/

模型下载:https://huggingface.co/mistralai/mamba-codestral-7B-v0.1

Mathstral 的特点:
  1. 高效数学推理:专为处理复杂、多步逻辑推理的高级数学问题而设计,在数学和科学领域表现出色,能够处理复杂的多步推理问题,如数学证明和复杂的科学计算。

  2. 大上下文窗口:拥有32k的上下文窗口,能够处理和理解更大范围的输入信息,对于复杂问题和长文本推理非常有用。

  3. 先进的性能:

    • 在各种行业标准基准测试中表现优异,例如在MATH测试中取得56.6%的成绩,在MMLU测试中取得63.47%的成绩。
    • 使用多数投票方法时,Mathstral 7B在MATH测试中的得分可以提高到68.37%,在64个候选者中使用强奖励模型时得分为74.59%。
  4. 模型架构:Mathstral 7B 构建在Mistral 7B的基础上,继承了其强大的基础能力和架构优势。该模型具有7B参数,

  5. 定制和微调能力:

    • 用户可以通过mistral-inference和mistral-finetune工具进行模型部署和微调,以满足特定需求。
    • 提供灵活的微调能力,用户可以根据具体应用场景对模型进行优化。

官方介绍:https://mistral.ai/news/codestral-mamba/

模型下载:https://huggingface.co/mistralai/mathstral-7B-v0.1

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Prompt 学习地图 17 | 复杂任务 – 通过“大声思考” 引导模型逐步解释

Prompt 学习地图 17 | 复杂任务 – 通过“大声思考” 引导模型逐步解释

101 VIEWS
2024年4月18日
Pika Lip Sync: 唇型同步功能向所有人开放

Pika Lip Sync: 唇型同步功能向所有人开放

176 VIEWS
2024年3月6日
Whomane:不到100美金AI Pin替代 一个开源的人工智能可穿戴相机设备

Whomane:不到100美金AI Pin替代 一个开源的人工智能可穿戴相机设备

50 VIEWS
2024年3月11日
GPT 4在眼科领域达到专家级临床知识和推理水平

GPT 4在眼科领域达到专家级临床知识和推理水平

101 VIEWS
2024年4月23日
Command-R:高性能企业级语言模型 跨语言交互与自动化工具集成

Command-R:高性能企业级语言模型 跨语言交互与自动化工具集成

38 VIEWS
2024年3月14日
TacticAI:DeepMind与利物浦俱乐部联合开发出AI足球战术教练

TacticAI:DeepMind与利物浦俱乐部联合开发出AI足球战术教练

64 VIEWS
2024年3月23日
Runway 推出一款生成式角色表演工具 可以把视频转换成任意风格虚拟角色动画 并且保持表情语音口型同步

Runway 推出一款生成式角色表演工具 可以把视频转换成任意风格虚拟角色动画 并且保持表情语音口型同步

471 VIEWS
2024年10月23日
LearnLM-Tutor:DeepMind 开发 专门用于一对一的教学辅导的 AI 模型

LearnLM-Tutor:DeepMind 开发 专门用于一对一的教学辅导的 AI 模型

334 VIEWS
2024年5月22日
Google新的 AI 训练技术 使得模型训练速度快了 13倍 效率提高了 10倍

Google新的 AI 训练技术 使得模型训练速度快了 13倍 效率提高了 10倍

91 VIEWS
2024年7月11日
Pandora:能够根据自然语言指令生成视频 并能实时进行视频控制的通用世界模型

Pandora:能够根据自然语言指令生成视频 并能实时进行视频控制的通用世界模型

140 VIEWS
2024年5月24日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版