Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Google发布其开源模型Gemma 2 全新的架构设计 性能大幅提升

by 小互
2024年6月28日
in XiaoHu.AI日报
0 0
0
Google发布其开源模型Gemma 2 全新的架构设计 性能大幅提升
0
SHARES
224
VIEWS
Share on FacebookShare on Twitter

Google发布了Gemma 2,这是其下一代开放模型,旨在为研究人员和开发者提供更高性能和效率的AI工具。Gemma 2拥有9B和27B参数规模,相比第一代模型在推理效率和安全性上有显著提升。

  • Gemma 2采用全新的架构设计,优化了性能和推理效率。
  • 专为在不同硬件环境下实现卓越的推理速度和性能而构建。
  • 27B Gemma 2在同类模型中表现最佳,能够与体积两倍的模型竞争。
  • 9B Gemma 2超越了同类模型如Llama 3 8B,提供了领先的性能。
  • 27B模型在全精度推理时,具备高效运行的能力,显著降低了部署成本。
  • 能在单个NVIDIA H100 Tensor Core GPU或TPU主机上实现高效推理。
  • Gemma 2在多种硬件上优化了推理速度,在高端桌面、游戏笔记本和云端设置上都能实现高效运行。
  • 模型版本:Gemma 2有两个版本,9亿参数和27亿参数,分别有基础版和指令微调版。
  • 训练数据:Gemma 2的训练数据量是其前一版本的两倍,27B模型使用了13万亿tokens,9B模型使用了8万亿tokens,主要包括英文、代码和数学数据。
  • 许可:与第一版相同,Gemma 2采用宽松的许可,允许再分发、微调、商业使用和派生作品。

Gemma 2 的技术进步

Gemma 2 相较于其前代产品,在多个方面进行了技术升级和改进。以下是其主要的技术进步:

1. 滑动窗口注意力(Sliding Window Attention)
  • 描述:在每隔一层使用滑动窗口注意力(局部注意力,覆盖4096个tokens),其他层使用全局注意力(覆盖8192个tokens)。
  • 优点:这种混合方法在处理长文本时既能提高生成质量(因为一半的层仍然关注所有tokens),又能部分享受滑动注意力的优势,减少内存和时间消耗。
2. Logit 软封顶(Soft-capping)
  • 描述:防止logits过度增长,将其缩放到固定范围内。具体方法是将logits除以最大值阈值(soft_cap),然后通过tanh层,确保它们在(-1, 1)范围内,最后再乘以阈值。
  • 优点:保证最终值在(-soft_cap, +soft_cap)区间内,不丢失太多信息,同时稳定训练过程。Gemma 2对注意力层和最终层使用了这种方法,注意力层的logits上限为50.0,最终logits上限为30.0。
3. 知识蒸馏(Knowledge Distillation)
  • 描述:使用更大的教师模型训练较小的学生模型,通过丰富的token概率分布提供更有意义的学习信号。
  • 应用:在Gemma 2的预训练过程中,9B模型使用知识蒸馏,而27B模型则是从头开始预训练。在训练后阶段,使用教师模型生成的多样化完成数据进行训练,以增强学生模型的表现。
  • 优点:这种方法通过减少学生和教师模型之间的训练推理不匹配,显著提升了学生模型的生成质量。
4. 模型合并(Model Merging)
  • 描述:将两个或多个LLM合并为一个新模型。Gemma 2使用了一种称为Warp的新合并技术,分三个阶段进行:
    • 指数移动平均(EMA):在强化学习(RL)微调过程中应用。
    • 球面线性插值(SLERP):在RL微调多个策略之后应用。
    • 向初始化线性插值(LITI):在SLERP阶段之后应用。
  • 优点:这种技术可以在没有加速器的情况下使用,增强了模型的整体性能。

Gemma 2 的评估结果

Gemma 2 在多个基准测试中表现出色,与其他开源大型语言模型(LLM)进行了详细比较。以下是其主要评估结果:

大型模型评估结果

小型模型评估结果

评估分析

  1. 大型模型评估:在MMLU、GSM8K和ARC-C等基准测试中,Gemma 2 (27B)的表现接近甚至超过了Qwen 1.5 (32B),显示出其强大的综合能力。
  2. 小型模型评估:在多个基准测试中,Gemma 2 (9B)的表现显著优于Mistral (7B)和Llama 3 (8B),特别是在MMLU和GSM8K测试中,表现尤为突出。
  • MMLU (Massive Multi-Task Language Understanding):评估模型在多个任务上的理解能力,Gemma 2在此基准上表现出色。
  • GSM8K (Grade School Math 8K):评估模型解决数学问题的能力,Gemma 2在此测试中几乎与Llama 3 (70B)持平。
  • ARC-C (AI2 Reasoning Challenge – Challenge Set):评估模型的推理能力,Gemma 2超过了Qwen 1.5 (32B)。
  • HellaSwag:评估模型在选择正确描述事件序列方面的能力,Gemma 2表现稳定。
  • Winogrande:评估模型在理解和推理常识知识方面的能力,Gemma 2表现优于大多数同类模型。

Gemma 2在多个基准测试中的表现表明,它是目前最先进的开源大语言模型之一。其在理解、推理和解决问题方面的能力得到了显著提升,使其在学术和实际应用中都具有很高的价值。通过这些评估结果,可以看到Gemma 2在开源LLM领域中的强大竞争力和广泛的应用前景。

模型下载:https://huggingface.co/blog/gemma2

在线体验:https://huggingface.co/chat/models/google/gemma-2-27b-it

官方介绍:https://blog.google/technology/developers/google-gemma-2

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
494
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
346
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
460
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
284
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
636
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
435

Recommendeds

智谱AI发布其最新GLM-4-Plus模型 以及展示了类似GPT 4o的语音视觉能力

智谱AI发布其最新GLM-4-Plus模型 以及展示了类似GPT 4o的语音视觉能力

445 VIEWS
2024年8月30日
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

636 VIEWS
2024年12月23日
OpenAI 发布带有视觉能力的GPT-4-Turbo 128k上下文

OpenAI 发布带有视觉能力的GPT-4-Turbo 128k上下文

148 VIEWS
2024年4月10日
Apple Intelligence背后基础模型:一个约30亿参数的设备端模型和一个服务器端大模型

Apple Intelligence背后基础模型:一个约30亿参数的设备端模型和一个服务器端大模型

284 VIEWS
2024年6月12日
Adobe 发布Firefly Vector AI 模型 为 Illustrator 和 Photoshop 推出更多生成式 AI 功能

Adobe 发布Firefly Vector AI 模型 为 Illustrator 和 Photoshop 推出更多生成式 AI 功能

287 VIEWS
2024年7月24日
OpenVoice:轻松克隆任何声音 用多种语言说话 并可控制情感口音

OpenVoice:轻松克隆任何声音 用多种语言说话 并可控制情感口音

1.4k VIEWS
2024年4月25日
OpenAI 开发人员体验主管VivaTech展示GPT-4o和Sora结合的能力

OpenAI 开发人员体验主管VivaTech展示GPT-4o和Sora结合的能力

302 VIEWS
2024年5月24日
Truecaller 与微软合作 允许用户克隆自己的声音 来让AI接听电话

Truecaller 与微软合作 允许用户克隆自己的声音 来让AI接听电话

301 VIEWS
2024年5月23日
前Stability AI 核心成员 成立新公司 发布 Flux.1 开源图像生成模型

前Stability AI 核心成员 成立新公司 发布 Flux.1 开源图像生成模型

1k VIEWS
2024年8月2日
Glyph-ByT5:提高图像生成中文本渲染的准确性 提升近90%

Glyph-ByT5:提高图像生成中文本渲染的准确性 提升近90%

128 VIEWS
2024年6月18日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版