DeltaTuning该方法中可调参数最多,研究人员进行了不同的实验DeltaTuning不同规模的方法PLM上微调消耗的GPU研究人员单独训练显存DeltaTuning方法,Tuning在低维假设下,讨论了一些效果DeltaTuning设计方法。
清华大学毕业证图片高清生成pdf文件,毕业证样本网为大家汇总几个问题来给大家分析!
清华大学毕业证图片高清生成pdf文件、毕业证书样本网络为您总结几个问题进行分析!希望读者认为清华大学毕业证书的高清生成pdf文件的详细知识和(清华毕业证样本)讨论值得一读!
问题一.揭示大模型背后的机制,对参数高效微调方案进行全面分析
机器之心专栏
机器之心部
在本文中,清华大学的研究人员,包括刘志远、唐杰、孙茂松参数的高效微调进行了全面的理论和实验分析。
语言模型的预训练(PLM)毫无疑问,它已经成为各种各样的NLP任务的基础设施和PLM
在发展过程中,呈现出一种看似不可逆转的趋势:即模型的规模越来越大。更大的模型不仅会在已知任务中取得更好的效果,还会显示出完成更复杂未知任务的潜力。然而,更大的模型在应用中也面临着更大的挑战。传统方法微调超大规模预训练模型的全参数会消耗大量的过程
GPU计算资源和存储资源的巨大成本令人望而却步。
这种成本也造成了学术界的一种「惯性」,也就是说,研究人员习惯性地忽视大规模模型,只在中小规模上验证自己的方法。
在近期论文《DeltaTuning:AComprehensiveStudyofParameterEfficientMethodsfor
Pre-trainedLanguageModels》中,来自清华大学和北京智源人工智能研究所的研究人员随机选取了近五篇文章中的1000篇NLP
会议论文发现,预训练模型的使用已成为研究的基本范式,但很少有大模型(如下图1所示)。
图1:预训练模型的统计分布用于随机选择1000篇论文。
在这种背景下,一种新的模型适应方案-高效的参数(Parameter-
efficient)该方法逐渐受到关注。与标准全参数微调相比,这些方法只是微调模型参数的一小部分,其余部分保持不变,大大降低了计算和存储成本,具有可与全参数微调媲美的性能。研究人员认为,
这些方法本质上是一种「增量」(DeltaParemters)调整,所以叫它DeltaTuning
OpenDelta工具包:/thunlp/OpenDelta
研究人员定义和描述DeltaTuning通过统一的框架对以往的研究进行梳理和回顾。现有的框架DeltaTuning
方法可以被分为三组:
增量式(Addition-based)、指定式(Specification-
based)和重参数化(Reparameterization)的方法
。
除去实践意义之外,研究者认为它还具有非常重要的理论意义,DeltaTuning
大模型背后的机制在一定程度上有助于人们进一步发展面向大模型甚至深度神经网络的理论。为此,他们从优化和最优控制的角度提出了理论框架Delta
Tuning,指导后续的结构和算法设计。为此,他们从优化和最优控制的角度提出了理论框架Delta
Tuning,指导后续的结构和算法设计。
此外,研究人员对代表性方法进行了全面的实验比较,超过100个NLP任务的结果显示了不同方法的综合性能比较。实验结果涵盖了正确Delta
Tuning性能、收敛性、高效性、PowerofScale、研究分析泛化性能和迁移性能。
他们还开发了一个开源工具包OpenDelta,使从业者能够高效、灵活地工作PLM上实现DeltaTuning。
DeltaTuning:方法与分析
给出预训练模型
和训练数据D,PLM适应的目标是生成模型的参数
定义为原始模型
上述操作。对于传统的全参数微调,有
,其中
与训练数据相比,所有参数的更新值。在DeltaTuning中,
指修改少量参数。经验方面,全参数微调
,而DeltaTuning则有
。因此,根据调整的参数形式和结构,可以有效地提高参数DeltaTuning分为三种策略,并对以前的方法进行梳理:
增量式(Addition-based)方法
这种方法引入了原始模型中不存在的额外训练神经模块或参数。根据上述定义,我们有这种方法
。常见的增量方法包括Adapter-Tuning、PrefixTuning、PromptTuning
等等。它们将小规模的神经模块或可调参数插入模型并通过只微调这一小部分参数来实现模型的高效适应。其中Adapter-tuning
这是这种方法的开创性工作,在许多任务中,仅仅在每层添加一个简单的神经网络就可以与全参数微调相媲美。
同时,Adapter它在多任务和多语言场景中的潜力也显示出来。Prefix-tuning和PromptTuning最近很热Delta
Tuning将一些可调向量插入输入层或表示层进行微调算法。其中,PromptTuning可以视为PrefixTuning
简化版只添加到输入层SoftPrompt。这种做法有一个很大的优点,就是不需要修改模型的内部结构,同时随着模型参数的增加到100
它还被证明在某些数据上可以达到与全参数微调相当的效果。然而,这种方法也面临着很大的优化问题。实验表明,其优化效率往往低于其他微调范式,收敛时间较长,在中小型模型中表现不佳。
图3:DeltaTuning正式表达。
指定式(Specification-based)方法
这种方法指定了原始模型中的一些特定参数,其他参数被冻结。在这种方法中,训练参数可以集合表示
,此时更新的参数表示为
否则,增量值
指定方法不会在模型中引入任何新参数,也不会寻求改变模型的结构,而是直接指定要优化的部分参数。这个想法很简单,但效果出奇的好。比如有些方法只会微调
BERT和RoBERTa最后一层的四分之一,可以产生90%的全参数微调性能。
一个工作BitFit该模型仅通过优化模型内部偏项并冻结其他参数,在多个基准测试中仍能重现95%以上的全参数微调性能。BitFit
经验结果还表明,即使使用少量随机参数集DeltaTuning(这显然会降低性能),该模型仍然可以在GLUE
合格的基准测试结果。另一个有价值的观察是,不同的偏置项在模型适应期间可能具有不同的功能。
除了手动或启发性地指定要更新的参数外,您还可以学习此指定。DiffPruning它是微调模型参数的代表性工作之一
重参数化为预训练参数
差异向量的总和
此时,关键问题是鼓励差异向量尽可能稀疏。这项工作是对的
为了实现稀疏的目标,微近似来正则化向量。事实上,由于在学习阶段引入了新的优化参数,DiffPruning比全参数微调占用更多GPU
内存可能很大PLM在应用程序中面临挑战。掩码方法(Masking)为PLM
学习选择性掩码,只更新特定任务的临界权重。引入与模型权重相关的二进制矩阵,学习这样一组掩码,其中每个值由阈值函数生成。在反向传计器更新矩阵。
重参数化(Reparameterization-based)方法
这种方法通过转换将现有的优化过程转化为有效的参数形式。将重新参数化的参数集表示为
,并假设每个
都用新参数
表示,然后更新的参数表示为
简单来说,重参数化方法往往是基于类似的假设:预训练模型的适应过程本质上是低秩或低维的。因此,这一过程可以等效为参数高效范式。
例如,我们可以假设模型适应有一个「本征维度」,通过将微调过程的重参数转化为低维空间的优化过程,只有通过微调空间中的参数才能达到令人满意的性能。从这个意义上说,PLM
它可以作为一个通用的压缩框架,从高维压缩到低维优化复杂性。一般来说,更大PLM通常内部维度较小,预训练过程隐含减少PLM
内部维度。受这些观察的启发,重参数化DeltaTuning
方法也被提出,该方法使用低维代理参数对(部分)原始模型参数进行重参数化,仅优化代理参数,从而降低计算和内存成本。
另一份著名的工作LoRA
假设模型调整期间权重变化较低「本征秩」。基于这一假设,他们提出优化自注模块中原始权重矩阵的低秩分解。在部署中,优化的低秩分解矩阵乘以获得自注权重矩阵的增量。通过这种方式,LoRA
可以匹配GLUE基准微调性能。他们在各种规模和架构上展示了这种方法PLM,甚至GPT三是有效性。
这种低维假设不仅适用于单个任务的适应,也适用于多个任务的场景。IPT假设同一个低维本征子空间存在于多个任务中,只能同时调整子空间的参数
100多个NLP在任务上取得令人满意的效果。该方法没有使用随机子空间,而是试图找到一个多个空间NLP公共子空间共享任务。实验表明,250
在维的低维子空间中,只需调整250个参数即可达到100多个NLP任务上复现PromptTuning性能超过80%。
重参数化方法通常基于类似的低维或低秩假设。
DeltaTuning的理论视角
DeltaTuning本质上有共同点吗?研究人员认为,DeltaTuning
该方法不仅具有很高的实用价值,而且具有深远的理论意义,它们似乎都证明了一件事:
也就是说,大模型的适应过程似乎是一个非常低消耗的过程(与预训练相比),可以通过很少的数据和很少的参数调整来完成
。DeltaTuning
研究人员研究人员进一步探索模型适应背后的理论框架。本文从优化和最佳控制两个角度提出了框架DeltaTuning理论层面的解释。
优化角度
DeltaTuning试图通过微调一小部分参数来微调原大规模语言模型的全参数,减少内存占用。从优化的角度来看,研究者分析Delta
Tuning在低维假设下,讨论了一些效果DeltaTuning设计方法。使用DeltaTuning
之后,目标函数及其所依赖的参数可能会发生变化。
Tuning设计这个新的目标函数是必要的。它的出发点是利用问题的低维特性。一般而言,在实践中有两种思路被证明是有用的:
在特定的低维函数空间中类似于目标函数。{
x}{n}
因为对深度学习中的大部分应用,目标函数通常有很多局部极小值点,所以当初值接近一个局部极小值点时,仅仅个别搜索方向是重要的,或者目标函数在此邻域能被更简单的函数近似表示。因此
毕业证样本网创作《清华大学毕业证高清生成pdf清华大学文件样本》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/462130.html