研究：语言模型可以通过吸收同源模型的参数来获得新的能力

这篇论文展示了语言模型（LMs）可以通过吸收（即融合）来自同源模型的参数来获得新的能力，这个过程不需要重新训练或使用GPU。这种方法的核心是利用DARE（DropAndREscale）技术，它通过减少模型参数中的冗余（即将某些参数设为零并重新缩放剩余参数），使得可以将多个专用于特定任务的模型合并成一个多能力模型，而不损失性能。 这就像超级玛丽能够通过吸收道具来获得额外的能力，如变大、发射火球等。 结果概览 研究表明，应用DARE技术后，能够在保持甚至提高模型性能的同时，有效地减少语言模型（LMs）参数中的冗余。具体来说：

性能提升 ：通过合并特定任务的模型，例如将WizardLM和WizardMath合并，实验显示合并后的模型在某些零样本测试中的表现从2.2提升至66.3，这显著超过了任一原始模型的性能。 参数效率 ：DARE能够去除高达90%至99%的模型delta参数（即微调前后模型参数的差异）中的冗余，而对模型性能影响甚微。 DARE对于减少SFT模型中的冗余delta参数特别有效 ，并且在不牺牲模型性能的情况下支持将这些模型的能力合并到一个模型中。 排名提升 ：合并后的模型在含有7亿参数的模型排行榜上排名第一，展示了DARE在提升模型多任务处理能力方面的潜力。 实验的关键观察 极端冗余 ：SFT后的delta参数显示出极端的冗余性，这意味着大量的参数修改并不是提高模型性能所必需的。 参数融合效率 ：通过DARE预处理，多个模型的参数可以有效地融合，同时减少了不同模型能力间的干扰，使合并后的模型能够集成多种能力而不牺牲性能。 无需GPU或重新训练 ：DARE提供了一种无需使用GPU或进行额外训练的模型优化方法，这对于资源有限的研究和开发环境尤为有价值。 技术原理 该技术通过随机将部分delta参数（即微调和预训练参数之间的差异）置零，而不影响经过监督微调（Supervised Fine-Tuning, SFT）的语言模型的能力，并通过对剩余参数进行重新缩放以逼近原始嵌入。然后，利用DARE作为一个多功能的即插即用技术，对多个SFT同源模型的delta参数进行稀疏化处理，以减少参数干扰，并通过参数融合将它们合并成一个单一模型。 DARE（DropAndREscale）技术通过以下两个主要步骤来优化语言模型：

Drop（丢弃） ：首先，DARE随机将一定比例的delta参数设为零。这一步骤旨在去除那些对模型性能贡献不大的参数，以减少模型的复杂度和提高效率。

REscale（重新缩放） ：其次，对剩余的参数进行重新缩放，以补偿因丢弃参数而可能丢失的模型性能。这一步骤通过按比例增加非零参数的值来确保模型性能不受影响。

原理背后的理论基础 参数冗余性 ：研究发现，语言模型在微调过程中倾向于获得大量冗余的delta参数，这些参数的值通常很小，表明它们对模型性能的影响有限。 模型合并 ：通过先应用DARE减少每个模型的参数冗余，然后使用已有的模型合并技术，可以在不牺牲单个模型性能的情况下，将多个模型的能力合并到一个模型中。这一过程利用了参数的稀疏性来减少不同模型间参数的干扰，从而保留了每个原始模型的特定任务能力。 DARE技术证明了通过智能化地减少语言模型的参数冗余，可以在不增加计算成本的情况下，显著提升模型的多任务处理能力。这一发现为未来语言模型的开发和优化提供了新的方向，尤其是在资源有限的环境中，如何通过优化现有模型参数来实现更高效、更强大的语言处理能力。 论文： https://arxiv.org/abs/2311.03099 PDF： https://arxiv.org/pdf/2311.03099.pdf