告别盲目的大规模预训练
来源:个人图书馆-汉无为    时间:2023-06-20 10:56:04


(资料图)

概述

本论文的研究背景是预训练模型的成功应用,以及预训练规模越来越大所带来的计算和能源成本问题。

过去的方法主要有三种,分别是并行架构、高效的模型结构和新颖的预训练任务,但其改进仅能在计算时间上获得有限的减少,而本文的方法是基于利用端到任务的知识来选择预训练语料库的微小子集所产生的最积极的影响,在计算成本显著减少的前提下,能够在各种数据集和领域中胜过诸如RoBERTa等预训练模型。

本文提出了影响子集选择(ISS)方法,它明确地利用端任务知识来选择预训练语料库的一个微小子集。ISS选择提供最积极影响端任务表现的样本,并设计了基于梯度匹配的影响估计方法,可以大幅度降低计算时间。

本文的方法在包括四个领域的八个数据集上进行了测试,所取的子集仅为整个数据集的0.45%,计算成本降低了三个数量级,而在这些任务中能够胜过RoBERTa等预训练模型。因此,本文提出的方法满足了减少计算成本,提高模型精度的目标,切实可行。

方法

本研究提出了影响子集选择(ISS)方法,利用端到任务的知识来选择预训练语料库的一个微小子集,这样可以产生最积极的影响,能够在各种数据集和领域中胜过RoBERTa等预训练模型。

该方法的核心思想是利用端任务知识选择预训练语料库中样本的一个微小子集,并基于梯度匹配设计了影响估计方法来大幅度降低计算时间。

具体来说,ISS方法通过考虑端任务样本的X和Y信息,通过预训练样本zp影响到特征编码器参数θ,测量预训练样本的重要性。因为Hessian计算是昂贵的,因此提出了影响近似算法来加速到端任务样本的影响估计。算法通过梯度匹配估计参数更新,以计算训练数据上的损失变化与测试样本的影响。

为了测试该方法的效率和泛化性,本研究基于四个领域的八个数据集进行了测试。然后根据预训练样本的影响选择相关样本,并在各个任务上进行测试。实验结果表明,该方法的计算成本降低了三个数量级,但在各项任务中均能胜过RoBERTa等预训练模型,具有良好的有效性和泛化性。

结论

本研究提出了一种基于影响子集选择(ISS)方法的预训练语言模型,旨在从数据水平上减少预训练的计算成本。ISS方法通过利用端到端任务的知识选择预训练语料库中样本的微小子集,设计了一个简单而高效的梯度匹配方法来估计影响并降低计算时间。该方法有效减少了训练FLOPs的三个数量级,同时能够在各个任务上取得与PTMs相当的表现。该研究为预训练模型的进一步发展提供了宝贵的参考。

创新点:本研究利用端到端任务的知识来选择预训练语料库的微小子集,运用影响函数来衡量每个预训练样本的重要性,设计了具有高效性和准确性的梯度匹配方法来估计样本的影响,实现了显著的计算成本降低和表现提升。

X 关闭

推荐内容

精彩推荐

Copyright ©  2015-2023 华夏卫浴网版权所有  备案号:琼ICP备2022009675号-37   联系邮箱:435 227 67@qq.com