Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

 腾讯发布目前最大开源MoE模型:腾讯混元大模型(Hunyuan-Large) 具有 3890 亿参数

by 小互
2024年11月5日
in XiaoHu.AI日报
0 0
0
 腾讯发布目前最大开源MoE模型:腾讯混元大模型(Hunyuan-Large) 具有 3890 亿参数
0
SHARES
379
VIEWS
Share on FacebookShare on Twitter

腾讯发布开源 Mixture of Experts(MoE)模型:腾讯混元大模型(Hunyuan-Large),这是目前在业界是规模最大的开源 Transformer 专家模型,具有 3890 亿参数,其中活跃的参数为 520 亿。

它专为提升自然语言处理、计算机视觉和科学任务而设计,在长文本处理、常识推理、数学能力等方面表现出色。

腾讯混元大模型(Hunyuan-Large)训练过程中使用了大量合成数据,使其可以学习到更丰富的语言表达方式。这种数据增强技术帮助 Hunyuan-Large 更好地泛化未见过的内容,提升对长文本的理解能力。

  • KV 缓存压缩(KV Cache Compression)
    • 分组查询注意力(Grouped Query Attention, GQA):通过 GQA 技术将注意力机制中的查询分组,大幅减少了模型在推理时的内存消耗,优化了计算效率。
    • 跨层注意力(Cross-Layer Attention, CLA):使用 CLA 机制,Hunyuan-Large 可以在不同层次共享部分信息,从而降低存储和计算负担,进一步提高推理效率。这些改进使得模型在处理大规模输入时可以更高效地利用计算资源,适合资源受限的环境。
  • 专家特定学习率(Expert-Specific Learning Rate)
    • 针对不同子模型优化学习率:Hunyuan-Large 采用 MoE 架构中的专家机制,根据每个专家模型的特性设置不同的学习率。这一方法确保了各子模型能够从数据中有效学习,进而在整体上提升了模型的表现。
    • 提高了模型的训练效率:专家特定学习率使得模型训练更具适应性,避免了“学习过度”或“学习不足”现象,最大限度地利用了每个专家模块的能力。
  • 长上下文处理能力
    • 预训练模型支持 256K 的上下文窗口:Hunyuan-Large 的预训练模型支持长达 256K 的上下文处理,这使得它在处理超长文本时依旧能保持较高的性能,不会遗漏关键上下文信息。
    • Instruct 模型支持 128K 长度的文本输入:通过 Instruct 模型的优化,Hunyuan-Large 可以高效处理 128K 的指令任务输入,大幅扩展了其在处理长文档和复杂指令方面的能力。

基准测试与性能表现

  1. 多项任务表现优越
    • 常识和逻辑推理:在 CommonsenseQA 和 PIQA 等任务中,Hunyuan-Large 取得了显著的优势,证明了其在常识推理和逻辑推理任务中的高效性能。
    • 阅读理解和问答任务:在 TriviaQA、NaturalQuestions 等阅读理解任务上,模型表现优异,尤其在复杂问答任务中展现了卓越的理解和回答能力。
    • 数学推理能力:在 GSM8K 和 MATH 数据集上,Hunyuan-Large 的表现超过了所有其他基线模型,特别是在 CMATH(中文数学)数据集中也获得了最佳成绩,突显了其在数学和逻辑推理方面的实力。
  2. 中文任务的卓越表现
    • C-Eval 和 CMMLU:在中国语言测试(如 C-Eval 和 CMMLU)中,Hunyuan-Large 展现出一流的性能,是同类开源模型中的佼佼者。尤其是在中文语境下的多项选择、阅读理解等任务中,该模型的准确性显著提升。
    • 常识与推理能力:在中文常识推理(如 CMATH 和 CommonsenseQA 中文版)任务中,模型的准确率显著高于其他开源模型,表明其在中文理解和推理能力方面具有领先优势。
  3. 与其他模型的性能对比
    • 与 Dense 模型和其他 MoE 模型的对比:Hunyuan-Large 在 MMLU、BBH 和 WinoGrande 等多个基准测试上均超过了 LLama3.1、Mixtral 和 DeepSeek 等同类模型。特别是在 MMLU 数据集上,Hunyuan-Large 的表现优于 LLama3.1-405B 模型,提升幅度达到 2.6%,充分展示了其在大规模任务上的理解和推理能力。
    • 数学任务的表现:Hunyuan-Large 在 MATH 数据集上表现卓越,超越了 LLama3.1-405B 模型,准确率提升了 3.6%,表明其在数学推理任务中的显著优势。

官网:https://llm.hunyuan.tencent.com/

模型下载:https://huggingface.co/tencent/Tencent-Hunyuan-Large

技术报告:https://arxiv.org/pdf/2411.02265

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Luma AI 推出 Dream Machine API 开发者可将AI视频生成能力无缝集成到自己的产品中

Luma AI 推出 Dream Machine API 开发者可将AI视频生成能力无缝集成到自己的产品中

174 VIEWS
2024年9月18日
Prompt 学习地图 10  | 编写策略 – 提供参考文本

Prompt 学习地图 10 | 编写策略 – 提供参考文本

175 VIEWS
2024年5月25日
Midjourney 大更新:新增外部图像编辑器、图像重纹理功能  编辑图像更轻松

Midjourney 大更新:新增外部图像编辑器、图像重纹理功能 编辑图像更轻松

619 VIEWS
2024年10月24日
基于 ChatTTS 2600个音色库稳定性评分 并按性别和年龄分类 可试听

基于 ChatTTS 2600个音色库稳定性评分 并按性别和年龄分类 可试听

733 VIEWS
2024年6月17日
n8n推出自托管 AI 入门工具包 可在本地快速部署AI项目和低代码开发环境

n8n推出自托管 AI 入门工具包 可在本地快速部署AI项目和低代码开发环境

301 VIEWS
2024年9月24日
InstanceDiffusion:允许用户以前所未有的精度控制图片中每个细节

InstanceDiffusion:允许用户以前所未有的精度控制图片中每个细节

67 VIEWS
2024年3月7日
Meta AI 研究员:网络上的文本基本都是“狗屎” Llama 3 没有使用任何人类书写的答案 全是合成数据

Meta AI 研究员:网络上的文本基本都是“狗屎” Llama 3 没有使用任何人类书写的答案 全是合成数据

256 VIEWS
2024年7月24日
苹果发布多模态大语言模型MM1 并公布训练方法和技术细节

苹果发布多模态大语言模型MM1 并公布训练方法和技术细节

25 VIEWS
2024年3月17日
换脸应用 FaceFusion 升级为 “面部操控平台” 支持面部表情恢复迁移编辑

换脸应用 FaceFusion 升级为 “面部操控平台” 支持面部表情恢复迁移编辑

480 VIEWS
2024年11月7日
ElevenLabs 推出 Audio Native 自动将你的内容转换为播客

ElevenLabs 推出 Audio Native 自动将你的内容转换为播客

321 VIEWS
2024年5月18日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版