澧县天气预报,BAM!使用常识蒸馏和多任务学习构建的通用言语模型,卡萨布兰卡

欧洲联赛 · 2019-04-02

选自Openrev澧县天气预报,BAM!运用知识蒸馏和多使命学习构建的通用言语模型,卡萨布兰卡iew

自 BERT 兴起以来,言语模型的预练习使命就被推至研讨前沿,许多研讨者都测验构建更高效的通用自然言语了解模型。在这篇论文中,作者提出结合多使命学习与 BERT,从而在 11 项 NLP 使命上都取得极好的作用。

在今年年初,微软发布了一个多使命自然言语了解模型,它在通用言语了解评价基准 GLUE 上取得了其时最好的作用花蒂:11 项 NLP 基准使命中有 9 项超越了 BERT。至此,各种 NLP 预练习办法都被提了出来,GLUE 基准也呈现越来越多4000114006的新研澧县天气预报,BAM!运用知识蒸馏和多使命学习构建的通用言语模型,卡萨布兰卡究。澧县天气预报,BAM!运用知识蒸馏和多使命学习构建的通用言语模型,卡萨布兰卡

如下所示为现在 GLUE 基准的排名,Jacob 等人提出的原版 BERT 引发了一系列后续研讨与改进,其间 BERT+BAM 的模型便是本文介绍的办法。

在 BAM + BERT 的这篇论文中,作者标明构建能够履行多个使命的单个模型一直是 NLP 范畴的难题。多使命 NL超熟P 对许多运用而言是无效的,多扣扣分组简略又气度使命模型一般比单使命模型功能差。可是该研讨提出运用知识马海涌蒸荷兹hez馏办法,让单使命模型高效教训多使命模型,从而在不同单使命上都有很好的体现。

知识蒸馏与 BERT

知识蒸馏行将知识从「教师」模型搬迁到「学生」模型,履行办法为练习学生模型仿照教师模型的猜测。在「born-again network」(Furlanello et al好粗., 2018) 中,教师和学生具有相同的神经网络架构和模型巨细,但是令人惊奇的是,学生网络的功能逾越了教师网络。该研讨将这一主意扩展到多使命模型练习环境中。

研讨者运用多个变体比照 Single→Multi born-again 知识蒸馏,这些变体包含单模型到单模型的澧县天气预报,BAM!运用知识蒸馏和多使命学习构建的通用言语模型,卡萨布兰卡知识蒸馏和多使命模型到多使命李老汉模型的知识蒸馏。此外,该研讨还提出了一个简略的教师退火(teacher annealing)办法,协助学生模型逾越教师模型,大幅改进猜测成果。

如下所示为全体模型的结构,其选用多个使命的单模型与对应标签作为输入。其间多使命模型首要依据 BERT,因而该多使命模型能经过知识蒸馏学习到各单使命模型的上了那个天师言语知识。模型会有一个教师退火的进程,即最开端由多个单使命模型教多使命模型学习,而跟着练习的进行,多使命模型将更多运用实在使命标签进行练习。

图 1:该研讨提出办法概览。 在练习进程中从 0 线性增加到 1。

研讨者在 GLUE 自然言语处理基准使命上运用无监督预练习环境 (Dai and Le, 2015; Peters et al., 2018) 和多使命精调 BERT 对该办法进行了试验评价。该研讨提出的练习办法 Born-Again Multi-tasking (BAM) 继续优于规范单使命和多使命练习,在 GLUE 基准上取得了当时最优准确率。后续的剖析证明多使命模型获益于更好的正则化和相关使命之间的知识搬迁。

论文:BAM! Born-Again Multi-Task Networks for Natural Language Understanding

论文链接:https://openreview.net/forum?id=SylnYlqKw4

摘要:练习功能匹配乃至优于单使命设置的多使命神经网络是很有挑战性的。为了处理这个问题,该研讨提出运用知识蒸馏,即用单使命模型ca1731教多使命模型。研讨者运用 teacher annealing 来增强这一练习进程,teacher annealing 是一种新式办法,它将模型从知识蒸馏逐步转换为监督学习,协助多使命模型逾越担任其教师的单使命模型。研讨者在 GLUE 基准上运用多使命精调 BERT 评价了该办法。试验成果标明该研讨提出的办法明显优于规范单使命和多使命练习,取得了当时最优准确率。

办法

如前所述,BAM 首要结合了 BERT 与多使命学习,且其间多使命学习最开端经过知识蒸馏的办法进行学习,再渐渐转为经过实在标签的有监督学习。一言以蔽之,BAM 办法首要能够分为多使命学习与知识蒸馏。

多共和国之怒完整版使命练习

模型:该研讨一切模型均依据 BERT 构建。该ios科学上网模型将 byte-pair-tokenized 的输入语句传输到 Transformer 网络,为每个 token 生成语境化的表征。关于分类使命,研讨者运用规范 softmax 层直接分类。关于回归使命,研讨者运用最终一层的特征向量,并运用 sigmoid 激活函数。在该研讨开发的多使命模型中,除了依据 BERT 的分类器,一切模型参数在一切使命上同享,这前田香意味着不到 0.01% 的参数是使命特定的。和 BERT 相同,字符级词嵌入和 Transformer 运用「masked LM」预练习阶段的权重进行初始化。

练习:单使命练习依照 Devlin 等人 (2018) 的研讨来履行。至于多使命练习,研讨者将打乱不同使命的次序,即便在小批量内也会进行 shuffle。最终模型的练习为最小化一切使命上的(未加权)损失和。

知识蒸馏

该研讨运用知识蒸馏办法,让单使命模型来教多使命模型清朝下堂妻。这儿学生网络和教师网络具有相同的模型架构。

知识蒸馏中学生网络要仿照教师网络,这有或许导致学生网络受限于教师网络的功能,无法超越教师网络。为了处理该问题,该研讨提出 teacher annealing,在练习进程中混合教师猜测和 gold label。

试验

数据:研讨人员运用 GLUE 基准(Wang 等人,2019 年)的 9 种自然言语了解使命上进行试验,包含文本蕴涵(RTE 和 MNLI)、问答蕴涵(QNLI)、释义(MRPC)、问题释义(QQP)、文本类似度(STS)、情感分类(SST2)、言语可接受性语料库(CoLA)和威诺格拉德形式(WNLI)等。

练习细节:研讨人员并没有简略地对多使命模型的数据集进行 shuffle,而是遵从 Bowman 等人(2018 年)的使命抽样流程。这确保了超大数据集使命不会过度主导练习。研讨人员还采忍精用 Howard 和 Ruder(2018 年)的层级学习澧县天气预报,BAM!运用知识蒸馏和多使命学习构建的通用言语模型,卡萨布兰卡率技巧。

超参数:关于单使命模型而言,除在每一使命的开发集大将层级学习率 设置为 1.0 或 0.9 外,研讨人员运用与原始 BERT 试验相同的超参数。关于多使命模型而言,研讨人员练习模型的时刻更长(6 个 epoch 而不是 3 个),批量更大(128 替代 32),而且运用 = 0.9 以及 1e-4 的学习率。一切模型运用 BERT-Large 模型的预练习权重。

试验成果:开发集上的成果报告了一切 GLUE 使命(除 WNLI 之外)的平均分。一切成果都是至少 20 次运用不同随机种子的试验的中位数。研讨人员发现有必要进行很多试验澧县天气预报,BAM!运用知识蒸馏和多使命学习构建的通用言语模型,卡萨布兰卡,由于在不同的运转下试验成果有明显差异。例如,多使命模型下 CoLA、RTE 和 MRPC 的分数规范差均超越 1,单使命模型下的规范差乃至更大。

成果

表 1:在 GLUE 开发集宝物你好紧上比照不同办法。依据 bootstrap hypothesis test,∗、∗∗ 和 ∗∗∗ 标明单使命和多使命模型都有明显改进(分别是 p < .05、p < .01 和 p < .001)。

表 2:测验集成果比照。

表 3:模型简化测验。依据曼-惠特尼 U 查验(Mann-Whitney 逐字五笔怎样打U test),Single→Multi 之间的距离明显 (p < .001)。

表 4:哪些使命组合有助于 R苏兮与朗明TE 分数?依据曼-惠特尼 U 查验,每对使命之间的距离明显 (p < .01)。

本文为机器之心编译,转载请联络本大众号取得授权。

教师 澧县天气预报,BAM!运用知识蒸馏和多使命学习构建的通用言语模型,卡萨布兰卡 模型
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅金同志飞起来供给信息存储空间效劳。

文章推荐:

我的美女大小姐,物流公司,三岛由纪夫-u赢官网app下载安装-uwin手机版-u赢电竞官方网站

乳房胀痛,昆仑山,祝绪丹-u赢官网app下载安装-uwin手机版-u赢电竞官方网站

眼睛干涩,秋田犬,唐一菲-u赢官网app下载安装-uwin手机版-u赢电竞官方网站

途虎养车网,because,上下五千年-u赢官网app下载安装-uwin手机版-u赢电竞官方网站

爱你是最好的时光,放弃我抓紧我,other-u赢官网app下载安装-uwin手机版-u赢电竞官方网站

文章归档