Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Mistral 发布了2个7B小模型: Codestral Mamba 7B 和 Mathstral 7B 

by 小互
2024年7月17日
in XiaoHu.AI日报
0 0
0
Mistral 发布了2个7B小模型: Codestral Mamba 7B 和 Mathstral 7B 
0
SHARES
343
VIEWS
Share on FacebookShare on Twitter

Mistral 通过 Mamba 2架构训练了一个7B 的代码模型:Codestral Mamba,以及新推出一个与 Mistral 7B 相同的架构的数学推理和科学发现的模型:Mathstral 7B

Codestral Mamba超越了 DeepSeek QwenCode,成为小于 10B 参数的最佳模型,并且可以与 Codestral 22B 竞争,并且支持256K的上下文。

与传统的Transformer模型不同,Mamba模型在处理时间上更高效,并且可以处理无限长度的输入序列。用户可以免费使用、修改和分发该模型,适用于各种代码相关的应用场景。

Codestral Mamba 具有以下特点:
  1. 线性时间推理:Mamba 模型在推理时间上具有线性时间优势,这使得它可以更高效地处理大规模输入数据。

  2. 无限长度序列建模:理论上可以处理无限长度的序列,使其在处理长文本或代码时表现出色。

  3. 高级代码和推理能力:该模型专门针对代码生产力进行了训练,具备高级的代码理解和推理能力,可以在代码相关任务中表现优异。

  4. 高效上下文检索:在上下文检索能力测试中,Mamba 模型能够处理多达 256k tokens 的上下文,适合需要处理大量上下文信息的应用场景。

  5. 多平台部署:

    • 支持通过 mistral-inference SDK 部署,该 SDK 依赖于 Mamba 的 GitHub 仓库中的参考实现。
    • 也可以通过 TensorRT-LLM 部署,并计划在 llama.cpp 中提供本地推理支持。

与其他开源模型对比,Codestral Mamba 的性能如下:

  • CodeGemma 1.1 7B:在大多数测试中,Codestral Mamba 表现更好,特别是在 HumanEval 和 HumanEval C++ 测试中。
  • CodeLlama 7B:Codestral Mamba 明显优于 CodeLlama 7B,特别是在 HumanEval 和 MBPP 基准测试中。
  • DeepSeek v1.5 7B:尽管 DeepSeek 在某些基准上表现较好,但总体而言,Codestral Mamba 在 HumanEval 和 HumanEval C++ 中表现更为突出。
  • Codestral 22B:相比于更大的 Codestral 22B,Mamba 在一些测试中略逊一筹,但在 HumanEval 和 HumanEval Bash 中表现依然优异。
  • CodeLlama 34B:Codestral Mamba 的表现超过了 CodeLlama 34B 在多数测试中的结果。

官方介绍:https://mistral.ai/news/codestral-mamba/

模型下载:https://huggingface.co/mistralai/mamba-codestral-7B-v0.1

Mathstral 的特点:
  1. 高效数学推理:专为处理复杂、多步逻辑推理的高级数学问题而设计,在数学和科学领域表现出色,能够处理复杂的多步推理问题,如数学证明和复杂的科学计算。

  2. 大上下文窗口:拥有32k的上下文窗口,能够处理和理解更大范围的输入信息,对于复杂问题和长文本推理非常有用。

  3. 先进的性能:

    • 在各种行业标准基准测试中表现优异,例如在MATH测试中取得56.6%的成绩,在MMLU测试中取得63.47%的成绩。
    • 使用多数投票方法时,Mathstral 7B在MATH测试中的得分可以提高到68.37%,在64个候选者中使用强奖励模型时得分为74.59%。
  4. 模型架构:Mathstral 7B 构建在Mistral 7B的基础上,继承了其强大的基础能力和架构优势。该模型具有7B参数,

  5. 定制和微调能力:

    • 用户可以通过mistral-inference和mistral-finetune工具进行模型部署和微调,以满足特定需求。
    • 提供灵活的微调能力,用户可以根据具体应用场景对模型进行优化。

官方介绍:https://mistral.ai/news/codestral-mamba/

模型下载:https://huggingface.co/mistralai/mathstral-7B-v0.1

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

OpenAI 开发了一个名为 CriticGPT 的模型 专门用来找ChatGPT的错误

OpenAI 开发了一个名为 CriticGPT 的模型 专门用来找ChatGPT的错误

177 VIEWS
2024年6月28日
Spline 推出3D设计工具:AI 3D Generation 支持文本生成3D模型

Spline 推出3D设计工具:AI 3D Generation 支持文本生成3D模型

422 VIEWS
2024年4月17日
Stability AI 推出Stable Assistant 聊天机器人 能聊天能生图能出视频

Stability AI 推出Stable Assistant 聊天机器人 能聊天能生图能出视频

395 VIEWS
2024年5月27日
DBRX:  132B参数的 新开源大语言模型  细粒度混合专家架构

DBRX: 132B参数的 新开源大语言模型 细粒度混合专家架构

35 VIEWS
2024年3月28日
Claude发布函数调用工具:Tool use 允许模型与外部系统进行交互

Claude发布函数调用工具:Tool use 允许模型与外部系统进行交互

366 VIEWS
2024年4月6日
教程:使用 Glif 利用Flux Schnell模型创建四格漫画故事板和分镜头剧本

教程:使用 Glif 利用Flux Schnell模型创建四格漫画故事板和分镜头剧本

400 VIEWS
2024年8月22日
LearnLM-Tutor:DeepMind 开发 专门用于一对一的教学辅导的 AI 模型

LearnLM-Tutor:DeepMind 开发 专门用于一对一的教学辅导的 AI 模型

334 VIEWS
2024年5月22日
MistoLine:将手绘的草图直接生成符合草图轮廓的高质量图像

MistoLine:将手绘的草图直接生成符合草图轮廓的高质量图像

284 VIEWS
2024年5月8日
g1: 在 Groq 上使用 Llama-3.1 70b 创建类似OpenAI o1 的推理链

g1: 在 Groq 上使用 Llama-3.1 70b 创建类似OpenAI o1 的推理链

266 VIEWS
2024年9月16日
苹果对 Siri 进行全面改造 具有屏幕感知能力以及跨应用执行各种任务

苹果对 Siri 进行全面改造 具有屏幕感知能力以及跨应用执行各种任务

609 VIEWS
2024年6月11日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版