Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 论文

苹果开发出一种方法 解决了模型每次更新后出现的结果不一致问题

by 小互
2024年7月21日
in AI 论文
0 0
0
苹果开发出一种方法 解决了模型每次更新后出现的结果不一致问题
0
SHARES
171
VIEWS
Share on FacebookShare on Twitter

MUSCLE(Model Update Strategy for Compatible LLM Evolution)是由苹果公司开发的一种用于大语言模型(LLMs)更新的训练策略。旨在减少用户在使用更新后的大语言模型时所面临的麻烦。每次模型更新后,用户不需要再重新适应新模型的变化,从而减少了由于模型更新带来的困扰。

该策略的核心是通过训练一个兼容性适配器,使模型在更新后能够尽量保持与旧版本模型的兼容性,从而减少预测结果的不一致性,特别是减少所谓的“负翻转”现象。

MUSCLE通过知识蒸馏的方法,将旧模型的知识部分转移到新模型中,确保新模型在性能提升的同时,保持对旧模型的兼容性。

图中展示了一个真实的模型更新例子,其中发生了负翻转现象。具体来说,在对话摘要任务中,旧模型能够正确生成的摘要在新模型中变得错误。

解决了什么问题

1. 负翻转现象

  • 负负翻转现象指的是在模型更新后,先前模型能够正确预测的实例在新模型中变得错误。这种现象会导致用户体验下降,因为用户需要重新适应新模型的行为。
  • 负翻转现象会导致用户体验不佳,因为用户需要重新适应和理解新模型的行为,增加了使用成本和心理负担。

2. 用户适应成本

  • 每次模型更新后,用户需要重新调整他们对模型功能和性能的期望和理解,这被称为用户适应成本。
  • 频繁的模型更新如果没有考虑兼容性,会增加用户的适应成本,导致用户满意度下降。

3. 模型更新一致性

  • 模型更新一致性是指模型在更新后能够保持与旧版本模型相似的行为和性能。
  • 现有的方法在提升模型性能时往往忽略了与旧版本模型的一致性,这会导致预测结果的突然变化,影响用户的使用体验。

MUSCLE的具体方法

  1. 兼容性适配器的训练:MUSCLE的核心是训练一个兼容性适配器,使得在更新模型基础部分后,任务特定的适配器可以减少负翻转现象并保持性能提升。
  2. 适配器初始化:兼容性适配器从新版本模型的任务适配器初始化,然后进一步对其进行微调。微调过程中,兼容性适配器会对齐新旧模型的预测,确保新模型能够继承旧模型的正确预测行为。
  3. 蒸馏知识:采用知识蒸馏的方法,将旧模型的部分知识转移到新模型中。知识蒸馏通过最小化学生模型(新模型)和教师模型(旧模型)之间的KL散度来实现,这样新模型可以在保留自身性能提升的同时,尽可能模仿旧模型的预测行为。
  4. 掩码策略:在微调过程中,MUSCLE采用了一种掩码策略来决定在什么时候对齐新模型和旧模型的预测。具体来说,当新模型的预测是错误的时,它会对齐到旧模型的预测,从而减少负翻转现象。

模型更新时样本的四种可能性

在模型更新时,每个样本可能出现以下四种情况。这些情况被分为四个象限(Quadrants),分别表示正翻转、负翻转以及其他情况。

象限 1(Quadrant 1)

  • 情况:新旧模型都正确。
  • 意义:这表示模型更新没有影响到该样本的正确预测,保持了一致性。

象限 2(Quadrant 2)

  • 情况:旧模型错误,新模型正确。
  • 意义:这是正翻转,表示模型更新带来了性能提升。此类情况越多,说明模型更新越成功。

象限 3(Quadrant 3)

  • 情况:新旧模型都错误。
  • 意义:虽然模型在这个样本上的表现都不正确,但如果新旧模型在错误上保持一致(即犯相同的错误),这有助于用户更容易适应模型更新。这是因为用户可能已经开发了应对模型错误的方法,一致性的错误可以减少用户的不适感。

象限 4(Quadrant 4)

  • 情况:旧模型正确,新模型错误。
  • 意义:这是负翻转,表示模型更新导致了性能下降。这种情况会降低用户满意度,应尽量减少。

评价指标

  • 正翻转率(PFR):象限 2 中的实例比例。正翻转率越高,说明模型更新带来的性能提升越大。
  • 负翻转率(NFR):象限 4 中的实例比例。负翻转率越低,说明模型更新对性能的负面影响越小。
  • 一致性错误(Consistent Mistakes):象限 3 中,新旧模型犯相同错误的比例。通过鼓励一致性错误,可以减少用户适应成本,提高用户满意度。

MUSCLE方法的应用

MUSCLE通过训练兼容性适配器,减少象限 4 的实例数量,增加象限 2 的实例数量,同时保持象限 3 中的错误一致性。

实验结果

  1. 负翻转现象减少
    • MUSCLE方法在多个任务上显著减少了负翻转现象。例如,在多选任务(如PIQA和HellaSwag)中,负翻转率减少了34%至40%;在数学推理任务(GSM8K)中,负翻转率减少了10%至29%;在对话摘要任务(SAMSum)中,负翻转率减少了15%至27%。
    • 通过减少负翻转,用户在模型更新后不需要重新适应新的模型行为,从而提高了用户体验。

  2. 性能提升
    • 在大多数任务上,MUSCLE方法不仅减少了负翻转,还保持或提升了模型的整体性能。例如,在PIQA任务中,使用MUSCLE的模型准确率提升了4.51%;在GSM8K任务中,准确率提升了10.72%。
    • 对于生成任务(如对话摘要任务),MUSCLE方法也提高了ROUGE-1得分,显示了其在生成任务中的有效性。

  3. Support authors and subscribe to content

    This is premium stuff. Subscribe to read the entire article.

    Login if you have purchased

    加入会员

    加入会员查看更多会员内容和教程。
    超过1000+的会员内容,每天更新。
    开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态

根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态

263 VIEWS
2024年6月17日
使用Magnific AI 几分钟将手绘草图转变为精美图画甚至是3D渲染

使用Magnific AI 几分钟将手绘草图转变为精美图画甚至是3D渲染

134 VIEWS
2024年4月17日
Meta AI最新研究:通过同时预测多个未来标记 提升模型推理速度和性能

Meta AI最新研究:通过同时预测多个未来标记 提升模型推理速度和性能

46 VIEWS
2024年5月11日
摩根大通人工智能研究部推出FlowMind 自动化金融工作流程

摩根大通人工智能研究部推出FlowMind 自动化金融工作流程

315 VIEWS
2024年4月29日
Bing 推出生成式AI搜索功能 根据用户的查询提供量身定制的动态响应结果

Bing 推出生成式AI搜索功能 根据用户的查询提供量身定制的动态响应结果

124 VIEWS
2024年7月25日
Xiaoju Survey:一个开源的多功能调查问卷系统 内置40多种题型 100多个模板

Xiaoju Survey:一个开源的多功能调查问卷系统 内置40多种题型 100多个模板

382 VIEWS
2024年6月17日
装备AI瞄准步枪的机器狗 接受了美国海军陆战队特种作战评估

装备AI瞄准步枪的机器狗 接受了美国海军陆战队特种作战评估

226 VIEWS
2024年5月19日
ChatGPT 帮我制定护肤方案   两个月让我的皮肤变成了这样…

ChatGPT 帮我制定护肤方案 两个月让我的皮肤变成了这样…

742 VIEWS
2024年11月12日
使用AI工具创建完整漫画教程 包括保持角色一致和文字添加

使用AI工具创建完整漫画教程 包括保持角色一致和文字添加

424 VIEWS
2024年5月21日
DataDreamer:简化大语言模型工作流程

DataDreamer:简化大语言模型工作流程

32 VIEWS
2024年3月3日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版