Google DeepMind 发布一套可视化工具可以让你了解语言模型的内部工作原理

语言模型的内部运作常常对训练它们的研究人员来说也是一个谜。 机械可解释性 是一个专注于解读这些内部运作的研究领域。该领域的研究人员使用 稀疏自编码器 作为一种“显微镜”，可以让他们看到语言模型的内部，了解其工作原理。 Google DeepMind发布了Gemma Scope，这是一套开放的工具集，旨在帮助研究人员理解Gemma 2语言模型是如何工作的。 通过这些工具，研究人员可以更好地理解模型的内部运作，从而提高模型的可靠性，减少错误，并解决AI带来的潜在风险。这个工具集包括数百个免费的稀疏自编码器，并且开源了支持这些工作的工具。 其主要作用包括： 解密语言模型的内部运作 ： 使用稀疏自编码器作为“显微镜”，让研究人员能够观察和分析语言模型内部的激活过程，理解模型如何处理和生成语言。 提高模型的可解释性 ： 稀疏自编码器可以分解模型的激活，揭示模型在处理输入时使用的特征。这有助于研究人员更清晰地看到模型的内部运作，识别模型在不同层次上学习到的概念和特征。 推动更可靠的AI系统 ： 通过深入了解模型的内部机制，研究人员可以开发更好的防护措施，防止模型产生错误或被滥用。例如，了解模型如何生成幻觉或错误回答，并采取措施减少这些问题。 实际应用 ： 研究人员可以利用Gemma Scope来研究和改进语言模型的实际应用，例如减少幻觉、提高模型输出的准确性，解决模型在处理复杂任务时可能遇到的问题。 Gemma Scope的工作原理 Gemma Scope主要使用一种叫做稀疏自动编码器（Sparse Autoencoders, SAEs）的技术。以下是其具体工作原理： 什么是稀疏自动编码器？ 稀疏自动编码器是一种能够将复杂的数据（比如语言模型的内部激活状态）分解成更简单、更容易理解的部分的工具。它有两个部分： 编码器 ：把复杂的数据变成一组稀疏的（即大多数值是零的）简单表示。 解码器 ：用这些简单表示来重建原始数据。 什么是语言模型的“激活”？ 当你向语言模型输入一句话时，模型内部会产生一系列的“激活”。这些激活是模型用来理解和生成语言的内部信号，就像人脑中的神经元活动一样。 稀疏自编码器的作用 稀疏自编码器（SAEs）是用来解读这些激活的小工具。想象它们是一种显微镜，能够放大和分析模型的内部信号，帮助我们看清模型在想什么。 分解和识别特征 语言模型的激活信号很复杂，包含很多不同的特征。稀疏自编码器可以将这些复杂的信号分解成更简单的部分，就像将一幅复杂的画拆解成不同的颜色和形状。 比如，当模型看到“爱因斯坦”这个词时，稀疏自编码器可以识别出与“物理学”、“相对论”等相关的特征。 不依赖先验知识 ： 重要的是，稀疏自编码器不需要我们预先告诉它要找哪些特征。它会自动分析激活信号，发现有意义的特征。这就像一个探险家在未知的领域里发现新的事物。 这种方法可以发现许多未曾预测到的复杂结构，使得研究人员能够识别和理解语言模型中的各种特征和模式。 多层次分析 ： Gemma Scope不仅仅分析模型的某一层，而是覆盖了模型的每一层。这样我们可以看到模型在不同层次上是如何一步步处理和理解输入的。 Gemma Scope的稀疏自编码器覆盖了Gemma 2模型的每一层和子层输出，总共生成了超过400个稀疏自编码器。这允许研究人员在不同层次上观察特征的演变和相互作用。 通过分析每一层的输出，研究人员可以了解特征在模型中的发展过程，以及它们如何组合形成更复杂的特征。 先进架构的应用 ： Gemma Scope使用了新的JumpReLU稀疏自编码器架构，这种架构在检测特征存在与评估特征强度之间取得了更好的平衡，显著减少了误差。 总的来说，Gemma Scope通过稀疏自编码器分析语言模型的激活状态，揭示出模型使用的特征和模式，从而帮助研究人员更好地理解和解释语言模型的内部工作原理。这一过程不依赖先验知识，使得研究人员能够发现许多未曾预测到的复杂结构和特征。 Gemma Scope的独特之处 Gemma Scope在语言模型的可解释性研究中具有以下几个独特之处： 全面覆盖的稀疏自编码器 ： Gemma Scope的稀疏自编码器覆盖了Gemma 2 2B和9B模型的每一层和子层输出，总共生成了超过400个稀疏自编码器。这种全面覆盖允许研究人员在模型的不同层次上进行详细的分析。 大规模特征库 ： 通过这些稀疏自编码器，Gemma Scope总共生成了超过3000万个特征。这为研究人员提供了一个庞大的特征库，使得他们能够深入研究和理解模型内部的复杂机制。 JumpReLU架构 ： Gemma Scope使用了JumpReLU稀疏自编码器架构，这种新架构在检测特征存在与评估特征强度之间取得了更好的平衡。相比传统的稀疏自编码器，JumpReLU显著减少了误差，提高了特征提取的准确性。 高效的计算资源利用 ： 训练和生成这些稀疏自编码器需要大量的计算资源。Gemma Scope的训练过程使用了相当于Gemma 2 9B模型训练计算量的15%，并生成了大约20拍字节（PiB）的激活数据。这些数据和计算资源的有效利用使得Gemma Scope能够在大规模模型上进行详细的可解释性研究。 开放和免费 ： Gemma Scope的工具和生成的稀疏自编码器是开源和免费的。这种开放性使得全球的研究人员都能够访问和使用这些工具，从而推动整个社区在语言模型可解释性方面的研究。 实际应用的潜力 ： Gemma Scope不仅仅是一个研究工具，还具有实际应用的潜力。通过深入理解模型的内部工作，研究人员可以开发更好的防护措施，防止模型出现错误（如幻觉）并解决实际应用中的问题（如模型漏洞）。 支持复杂能力分析 ： 之前的稀疏自编码器研究主要集中在小型模型或大型模型的单层上，而Gemma Scope则扩展到大型模型的所有层次，允许研究人员分析复杂的能力，如推理链（chain-of-thought）等。 以下是Google DeepMind 官方博客翻译 Gemma Scope：帮助安全领域的研究人员揭示语言模型的内部运作 宣布一套全面开放的稀疏自编码器套件，用于语言模型的可解释性研究。 为了创建一个人工智能（AI）语言模型，研究人员构建了一个能够在无需人工指导的情况下从大量数据中学习的系统。因此，语言模型的内部运作常常对训练它们的研究人员来说也是一个谜。 机制可解释性 是一个专注于解读这些内部运作的研究领域。该领域的研究人员使用 稀疏自编码器 作为一种“显微镜”，可以让他们看到语言模型的内部，了解其工作原理。 今天， 我们宣布了Gemma Scope ，这是一套帮助研究人员理解Gemma 2内部运作的新工具。Gemma Scope是数百个免费开放的稀疏自编码器（SAE）的集合，适用于 Gemma 2 9B 和 Gemma 2 2B 。我们还开源了 Mishax ，这是我们开发的一种工具，促成了Gemma Scope背后的许多可解释性工作。 我们希望今天的发布能够推动更雄心勃勃的可解释性研究。进一步的研究有可能帮助该领域构建更健壮的系统，开发更好的防范模型幻觉的措施，并防止自主AI智能体如欺骗或操纵的风险。 尝试我们的互动Gemma Scope演示 ，由Neuronpedia提供。 解读语言模型内部发生的事情 当你向语言模型提问时，它会将你的文本输入转换为一系列的“激活”。这些激活映射了你输入的单词之间的关系，帮助模型在不同单词之间建立联系，并利用这些联系来生成答案。 在模型处理文本输入时，模型神经网络中不同层的激活代表多个越来越高级的概念，称为“特征”。 例如，模型的早期层可能会学习 回忆事实 ，如 迈克尔·乔丹打篮球 ，而后期层可能会识别更复杂的概念，如 文本的真实性 。 [video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/08/Gemma_Scope_002_-_16-9.mp4" loop="true" autoplay="true" preload="auto"][/video] 使用稀疏自编码器解释模型激活的一个风格化表示，当它回忆起光明之城是巴黎的事实时。我们看到，与法国相关的概念存在，而不相关的则不存在。 然而，可解释性研究人员面临一个关键问题：模型的激活是许多不同特征的混合。在机制可解释性研究的早期，研究人员希望神经网络激活中的特征与单个神经元，即信息节点，对应起来。但实际上，神经元对许多不相关的特征都很活跃。这意味着没有明显的方法来判断哪些特征是激活的一部分。 这就是稀疏自编码器的用武之地。 一个给定的激活只是少数特征的混合，即使语言模型可能能够检测到数百万甚至数十亿个特征的能力——即模型是 稀疏地 使用特征的。例如，语言模型在回应关于爱因斯坦的询问时会考虑相对论，在写关于煎蛋卷时会考虑鸡蛋，但在写煎蛋卷时可能不会考虑相对论。 稀疏自编码器利用这一事实来发现一组可能的特征，并将每个激活分解为少数几个特征。研究人员希望，稀疏自编码器完成这一任务的最佳方式是找到语言模型实际使用的基础特征。 重要的是，在这个过程中，我们——研究人员——不会告诉稀疏自编码器要寻找哪些特征。因此，我们能够发现我们没有预测到的丰富结构。然而，由于我们无法立即知道发现特征的 含义 ，我们会在稀疏自编码器认为特征“触发”的文本例子中寻找 有意义的模式 。 这是一个例子，其中特征触发的位置以蓝色渐变突出显示，显示其强度： 我们的稀疏自编码器发现的特征的示例激活。每个气泡代表一个token（单词或单词片段），变化的蓝色显示特征的强度。在这个例子中，该特征显然与成语相关。 Gemma Scope的独特之处 先前的稀疏自编码器研究主要集中在研究 小模型 或 大型模型的单层 的内部运作。但更有雄心的可解释性研究涉及解码大型模型中的分层、复杂算法。 我们在 Gemma 2 2B 和 9B 的 每一层和子层输出 训练稀疏自编码器，以构建Gemma Scope，产生了400多个稀疏自编码器，共学习了3000多万个特征（尽管许多特征可能重叠）。这款工具将使研究人员能够研究特征在整个模型中的演变、相互作用并组成更复杂的特征。 Gemma Scope还使用了我们最新的、最先进的 JumpReLU SAE架构 。原始的稀疏自编码器架构在检测特征存在和估计其强度的双重目标之间难以平衡。JumpReLU架构使这种平衡更加容易，大大减少了错误。 训练这么多稀疏自编码器是一个重大的工程挑战，需要大量的计算能力。我们使用了Gemma 2 9B训练计算量的约15%（不包括生成蒸馏标签的计算量），保存了约20 PB（PiB）的激活到磁盘（相当于 一百万份英文维基百科 ），并总共生成了数千亿个稀疏自编码器参数。 推动该领域向前发展 通过发布Gemma Scope，我们希望使Gemma 2成为开放机制可解释性研究的最佳模型家族，并加速该领域的社区工作。 到目前为止，可解释性社区在理解小模型、开发相关技术（如 因果 干预 、 自动 电路 分析 、 特征解释 和 评估 稀疏自编码器 方面取得了巨大进展。通过Gemma Scope，我们希望看到社区将这些技术扩展到现代模型，分析更复杂的能力，如连锁思维，并找到可解释性的实际应用，例如解决仅在大模型中出现的问题，如幻觉和越狱。 技术报告： https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf 互动演示： https://www.neuronpedia.org/gemma-scope 教程： https://colab.research.google.com/ Gemma Scope 的概述，请查看 博文

Menu

分类目录

Google DeepMind 发布一套可视化工具可以让你了解语言模型的内部工作原理

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

腾讯混元DiT模型支持中英双语生成高分辨率、高质量的图像

OpenAI发布了全新的 o1 推理模型工作原理及技术报告详解

Midjourney 角色人物一致性功能上线复杂文本理解能力提升

Vidu：发布技术报告披露技术细节首个国产媲美Sora的视频生成模型

斯坦福医学院人工智能模型SyntheMol 帮助科学家能合成新的药物

Snap 发布第五代 Spectacles AR 眼镜内置AI 可通过语音提示直接生成 3D 动画

Screenpipe：24小时不间断记录你的屏幕和音频数据帮你自动干活

Proofread：利用大语言模型自动修正键盘输入的文本错误提升打字体验

面壁智能发布 MiniCPM 3.0 声称端侧模型 ChatGPT 时刻到来

Mistral 发布针对笔记本电脑和手机优化的最新 AI 模型性能优于Llama 和 Gemma 模型

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

Google DeepMind 发布一套可视化工具 可以让你了解语言模型的内部工作原理

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Google DeepMind 发布一套可视化工具可以让你了解语言模型的内部工作原理