Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 论文

苹果开发出一种方法 解决了模型每次更新后出现的结果不一致问题

by 小互
2024年7月21日
in AI 论文
0 0
0
苹果开发出一种方法 解决了模型每次更新后出现的结果不一致问题
0
SHARES
171
VIEWS
Share on FacebookShare on Twitter

MUSCLE(Model Update Strategy for Compatible LLM Evolution)是由苹果公司开发的一种用于大语言模型(LLMs)更新的训练策略。旨在减少用户在使用更新后的大语言模型时所面临的麻烦。每次模型更新后,用户不需要再重新适应新模型的变化,从而减少了由于模型更新带来的困扰。

该策略的核心是通过训练一个兼容性适配器,使模型在更新后能够尽量保持与旧版本模型的兼容性,从而减少预测结果的不一致性,特别是减少所谓的“负翻转”现象。

MUSCLE通过知识蒸馏的方法,将旧模型的知识部分转移到新模型中,确保新模型在性能提升的同时,保持对旧模型的兼容性。

图中展示了一个真实的模型更新例子,其中发生了负翻转现象。具体来说,在对话摘要任务中,旧模型能够正确生成的摘要在新模型中变得错误。

解决了什么问题

1. 负翻转现象

  • 负负翻转现象指的是在模型更新后,先前模型能够正确预测的实例在新模型中变得错误。这种现象会导致用户体验下降,因为用户需要重新适应新模型的行为。
  • 负翻转现象会导致用户体验不佳,因为用户需要重新适应和理解新模型的行为,增加了使用成本和心理负担。

2. 用户适应成本

  • 每次模型更新后,用户需要重新调整他们对模型功能和性能的期望和理解,这被称为用户适应成本。
  • 频繁的模型更新如果没有考虑兼容性,会增加用户的适应成本,导致用户满意度下降。

3. 模型更新一致性

  • 模型更新一致性是指模型在更新后能够保持与旧版本模型相似的行为和性能。
  • 现有的方法在提升模型性能时往往忽略了与旧版本模型的一致性,这会导致预测结果的突然变化,影响用户的使用体验。

MUSCLE的具体方法

  1. 兼容性适配器的训练:MUSCLE的核心是训练一个兼容性适配器,使得在更新模型基础部分后,任务特定的适配器可以减少负翻转现象并保持性能提升。
  2. 适配器初始化:兼容性适配器从新版本模型的任务适配器初始化,然后进一步对其进行微调。微调过程中,兼容性适配器会对齐新旧模型的预测,确保新模型能够继承旧模型的正确预测行为。
  3. 蒸馏知识:采用知识蒸馏的方法,将旧模型的部分知识转移到新模型中。知识蒸馏通过最小化学生模型(新模型)和教师模型(旧模型)之间的KL散度来实现,这样新模型可以在保留自身性能提升的同时,尽可能模仿旧模型的预测行为。
  4. 掩码策略:在微调过程中,MUSCLE采用了一种掩码策略来决定在什么时候对齐新模型和旧模型的预测。具体来说,当新模型的预测是错误的时,它会对齐到旧模型的预测,从而减少负翻转现象。

模型更新时样本的四种可能性

在模型更新时,每个样本可能出现以下四种情况。这些情况被分为四个象限(Quadrants),分别表示正翻转、负翻转以及其他情况。

象限 1(Quadrant 1)

  • 情况:新旧模型都正确。
  • 意义:这表示模型更新没有影响到该样本的正确预测,保持了一致性。

象限 2(Quadrant 2)

  • 情况:旧模型错误,新模型正确。
  • 意义:这是正翻转,表示模型更新带来了性能提升。此类情况越多,说明模型更新越成功。

象限 3(Quadrant 3)

  • 情况:新旧模型都错误。
  • 意义:虽然模型在这个样本上的表现都不正确,但如果新旧模型在错误上保持一致(即犯相同的错误),这有助于用户更容易适应模型更新。这是因为用户可能已经开发了应对模型错误的方法,一致性的错误可以减少用户的不适感。

象限 4(Quadrant 4)

  • 情况:旧模型正确,新模型错误。
  • 意义:这是负翻转,表示模型更新导致了性能下降。这种情况会降低用户满意度,应尽量减少。

评价指标

  • 正翻转率(PFR):象限 2 中的实例比例。正翻转率越高,说明模型更新带来的性能提升越大。
  • 负翻转率(NFR):象限 4 中的实例比例。负翻转率越低,说明模型更新对性能的负面影响越小。
  • 一致性错误(Consistent Mistakes):象限 3 中,新旧模型犯相同错误的比例。通过鼓励一致性错误,可以减少用户适应成本,提高用户满意度。

MUSCLE方法的应用

MUSCLE通过训练兼容性适配器,减少象限 4 的实例数量,增加象限 2 的实例数量,同时保持象限 3 中的错误一致性。

实验结果

  1. 负翻转现象减少
    • MUSCLE方法在多个任务上显著减少了负翻转现象。例如,在多选任务(如PIQA和HellaSwag)中,负翻转率减少了34%至40%;在数学推理任务(GSM8K)中,负翻转率减少了10%至29%;在对话摘要任务(SAMSum)中,负翻转率减少了15%至27%。
    • 通过减少负翻转,用户在模型更新后不需要重新适应新的模型行为,从而提高了用户体验。

  2. 性能提升
    • 在大多数任务上,MUSCLE方法不仅减少了负翻转,还保持或提升了模型的整体性能。例如,在PIQA任务中,使用MUSCLE的模型准确率提升了4.51%;在GSM8K任务中,准确率提升了10.72%。
    • 对于生成任务(如对话摘要任务),MUSCLE方法也提高了ROUGE-1得分,显示了其在生成任务中的有效性。

  3. Support authors and subscribe to content

    This is premium stuff. Subscribe to read the entire article.

    Login if you have purchased

    加入会员

    加入会员查看更多会员内容和教程。
    超过1000+的会员内容,每天更新。
    开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

智谱 AI 这次是真的国际领先了 发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西

智谱 AI 这次是真的国际领先了 发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西

1.3k VIEWS
2024年10月25日
提高Transformer模型处理复杂算术任务的能力的方法

提高Transformer模型处理复杂算术任务的能力的方法

39 VIEWS
2024年6月1日
APISR:专注于动漫图像、视频的超分辨率模型

APISR:专注于动漫图像、视频的超分辨率模型

47 VIEWS
2024年3月20日
DeepMind 新的生物人工智能系统 AlphaProteo:专门设计能够与特定靶标分子结合的蛋白质

DeepMind 新的生物人工智能系统 AlphaProteo:专门设计能够与特定靶标分子结合的蛋白质

104 VIEWS
2024年9月6日
Stable Diffusion 3 API 发布 性能媲美Midjourney v6

Stable Diffusion 3 API 发布 性能媲美Midjourney v6

328 VIEWS
2024年4月17日
OpenAI 推理模型 o1 评估研究报告 准确率高达 97.8% 远超其他 LLM 模型 但成本很高

OpenAI 推理模型 o1 评估研究报告 准确率高达 97.8% 远超其他 LLM 模型 但成本很高

254 VIEWS
2024年9月24日

苹果收购法国初创公司Datakalab 专注于AI和计算机视觉技术

42 VIEWS
2024年4月23日
Hallo 2:根据单张图像和音频输入能够生成长达一小时的4K分辨率人像视频

Hallo 2:根据单张图像和音频输入能够生成长达一小时的4K分辨率人像视频

405 VIEWS
2024年10月18日
Gemini 1.5 Pro和Gemini 1.5 Flash 150页技术报告

Gemini 1.5 Pro和Gemini 1.5 Flash 150页技术报告

277 VIEWS
2024年5月18日
SpeechGPT2:一个端到端的语音对话语言模型 能够感知和表达情感

SpeechGPT2:一个端到端的语音对话语言模型 能够感知和表达情感

412 VIEWS
2024年7月25日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版