Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

 腾讯发布目前最大开源MoE模型:腾讯混元大模型(Hunyuan-Large) 具有 3890 亿参数

by 小互
2024年11月5日
in XiaoHu.AI日报
0 0
0
 腾讯发布目前最大开源MoE模型:腾讯混元大模型(Hunyuan-Large) 具有 3890 亿参数
0
SHARES
379
VIEWS
Share on FacebookShare on Twitter

腾讯发布开源 Mixture of Experts(MoE)模型:腾讯混元大模型(Hunyuan-Large),这是目前在业界是规模最大的开源 Transformer 专家模型,具有 3890 亿参数,其中活跃的参数为 520 亿。

它专为提升自然语言处理、计算机视觉和科学任务而设计,在长文本处理、常识推理、数学能力等方面表现出色。

腾讯混元大模型(Hunyuan-Large)训练过程中使用了大量合成数据,使其可以学习到更丰富的语言表达方式。这种数据增强技术帮助 Hunyuan-Large 更好地泛化未见过的内容,提升对长文本的理解能力。

  • KV 缓存压缩(KV Cache Compression)
    • 分组查询注意力(Grouped Query Attention, GQA):通过 GQA 技术将注意力机制中的查询分组,大幅减少了模型在推理时的内存消耗,优化了计算效率。
    • 跨层注意力(Cross-Layer Attention, CLA):使用 CLA 机制,Hunyuan-Large 可以在不同层次共享部分信息,从而降低存储和计算负担,进一步提高推理效率。这些改进使得模型在处理大规模输入时可以更高效地利用计算资源,适合资源受限的环境。
  • 专家特定学习率(Expert-Specific Learning Rate)
    • 针对不同子模型优化学习率:Hunyuan-Large 采用 MoE 架构中的专家机制,根据每个专家模型的特性设置不同的学习率。这一方法确保了各子模型能够从数据中有效学习,进而在整体上提升了模型的表现。
    • 提高了模型的训练效率:专家特定学习率使得模型训练更具适应性,避免了“学习过度”或“学习不足”现象,最大限度地利用了每个专家模块的能力。
  • 长上下文处理能力
    • 预训练模型支持 256K 的上下文窗口:Hunyuan-Large 的预训练模型支持长达 256K 的上下文处理,这使得它在处理超长文本时依旧能保持较高的性能,不会遗漏关键上下文信息。
    • Instruct 模型支持 128K 长度的文本输入:通过 Instruct 模型的优化,Hunyuan-Large 可以高效处理 128K 的指令任务输入,大幅扩展了其在处理长文档和复杂指令方面的能力。

基准测试与性能表现

  1. 多项任务表现优越
    • 常识和逻辑推理:在 CommonsenseQA 和 PIQA 等任务中,Hunyuan-Large 取得了显著的优势,证明了其在常识推理和逻辑推理任务中的高效性能。
    • 阅读理解和问答任务:在 TriviaQA、NaturalQuestions 等阅读理解任务上,模型表现优异,尤其在复杂问答任务中展现了卓越的理解和回答能力。
    • 数学推理能力:在 GSM8K 和 MATH 数据集上,Hunyuan-Large 的表现超过了所有其他基线模型,特别是在 CMATH(中文数学)数据集中也获得了最佳成绩,突显了其在数学和逻辑推理方面的实力。
  2. 中文任务的卓越表现
    • C-Eval 和 CMMLU:在中国语言测试(如 C-Eval 和 CMMLU)中,Hunyuan-Large 展现出一流的性能,是同类开源模型中的佼佼者。尤其是在中文语境下的多项选择、阅读理解等任务中,该模型的准确性显著提升。
    • 常识与推理能力:在中文常识推理(如 CMATH 和 CommonsenseQA 中文版)任务中,模型的准确率显著高于其他开源模型,表明其在中文理解和推理能力方面具有领先优势。
  3. 与其他模型的性能对比
    • 与 Dense 模型和其他 MoE 模型的对比:Hunyuan-Large 在 MMLU、BBH 和 WinoGrande 等多个基准测试上均超过了 LLama3.1、Mixtral 和 DeepSeek 等同类模型。特别是在 MMLU 数据集上,Hunyuan-Large 的表现优于 LLama3.1-405B 模型,提升幅度达到 2.6%,充分展示了其在大规模任务上的理解和推理能力。
    • 数学任务的表现:Hunyuan-Large 在 MATH 数据集上表现卓越,超越了 LLama3.1-405B 模型,准确率提升了 3.6%,表明其在数学推理任务中的显著优势。

官网:https://llm.hunyuan.tencent.com/

模型下载:https://huggingface.co/tencent/Tencent-Hunyuan-Large

技术报告:https://arxiv.org/pdf/2411.02265

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
615
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

JetMoE-8B:不到10万美元的训练成本 性能却超越LLaMA2-7B

JetMoE-8B:不到10万美元的训练成本 性能却超越LLaMA2-7B

104 VIEWS
2024年4月16日
2024上半年《人工智能现状报告》来自750名AI行业领导者和技术人员的意见

2024上半年《人工智能现状报告》来自750名AI行业领导者和技术人员的意见

1.3k VIEWS
2024年7月3日
Adobe 推出新的 Firefly Image 3 Model 模型

Adobe 推出新的 Firefly Image 3 Model 模型

126 VIEWS
2024年4月23日
DataDreamer:简化大语言模型工作流程

DataDreamer:简化大语言模型工作流程

32 VIEWS
2024年3月3日
OpenAI 推理模型 o1 评估研究报告 准确率高达 97.8% 远超其他 LLM 模型 但成本很高

OpenAI 推理模型 o1 评估研究报告 准确率高达 97.8% 远超其他 LLM 模型 但成本很高

254 VIEWS
2024年9月24日
Microsoft和Quantinuum宣布将量子计算中引起巨大错误的“噪声”降低800倍

Microsoft和Quantinuum宣布将量子计算中引起巨大错误的“噪声”降低800倍

118 VIEWS
2024年4月6日
Clarity AI :AI图像放大与增强 – 免费且开源的Magnific替代品

Clarity AI :AI图像放大与增强 – 免费且开源的Magnific替代品

218 VIEWS
2024年4月7日
Recraft发布其最新图像生成模型:Recraft V3 可精确处理复杂长文本和手指等解剖学细节

Recraft发布其最新图像生成模型:Recraft V3 可精确处理复杂长文本和手指等解剖学细节

211 VIEWS
2024年11月4日
Unique 3D:不到30秒 从任意RGB图像中生成高保真3D模型

Unique 3D:不到30秒 从任意RGB图像中生成高保真3D模型

441 VIEWS
2024年7月22日
LobeChat:一键免费部署自己的私有聊天机器人 你能想到的功能它都有

LobeChat:一键免费部署自己的私有聊天机器人 你能想到的功能它都有

1.7k VIEWS
2024年6月24日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版