近期 NLP 界的大语言模子 (Large LM) 引领了一波研究热潮 。有关大语言模子介绍的博文浩瀚、此处保举一下 Stanford 为此专门设想的一门课程(仅开源了讲义)。

Stanford CS324 - Large Language Modelsstanford-cs324.github.io/winter2022/

大语言模子当然也影响到了机器翻译范畴。近一个月里 arxiv 上挂出了多篇相关的论文,而去年一年类似的工做根本都是在 WMT 角逐后做为参赛陈述提交的。由此也能够窥见大语言模子对机器翻译的冲击。

那几篇论文展现的一些成果很有启发,尤其是本次 Google 颁发的论文很有在将来改动机器翻译训练范式的潜量——虽然笔者认为论文的尝试阐发存在一些瑕疵,我也附和论文题目对他们在 few-shot 机器翻译上效果的描述:unreasonable。

接下来笔者将针对论文停止简单介绍及评价。

The unreasonable effectiveness of few-shot learning for machine translation

机构:Google AI

链接:https://arxiv.org/pdf/2302.01398.pdf

本文的效果十分冷艳。做者声称只利用 decoder-only 的模子(类似PaLM) [https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html] 、中量级的单语数据做训练,再在infer时加上五组双语对,就能让 few-shot 机器翻译的成果逃平以至超越 WMT’21 竞赛的优胜模子。

训练办法

做者利用了深度为 32 层、宽度为 4096 hidden+16384 的 FFW 大型 decoder-only Transformer 就在 100M 级此外单语语料长进行训练、模子参数量在 8B 摆布。各语种的数据量见下表

大语言模型的 few-shot 或许会改变机器翻译的范式 第1张

做者利用的单语语料数量级其实不算大

因为接纳了decoder-only的架构,做者利用了UL2的训练办法[https://arxiv.org/abs/2205.05131]。简言之,那种办法和 BERT 的 mask recover 自监视预训练很类似,只是添加了更多品种的噪音,并要求模子恢复被加噪音的token。

在 infer 阶段,做者给定了如下的 PRompt 模板来让模子生成翻译成果,此中是从 dev set 中随机挑选的 5 个双语句子。还需要提及的是 MBR[https://arxiv.org/abs/2111.09388] 做为解码搜刮算法而非 beam search。

大语言模型的 few-shot 或许会改变机器翻译的范式 第2张

prompt 模板中规中矩

如斯简单的步调就完成了模子训练和 infer 的设置。

尝试效果

做者次要是和 WMT‘21 的前三模子以及自家的 LM 大模子 PaLM 做比照,所用的目标次要是自家的 BLEURT。

下表为大语种翻译的效果。一个有趣的点是三语训练的模子效果以至比双语的还要好——那一点其实和以往多语言训练的经历有些差别(语种越多、大语种的效果往往越差)。

大语言模型的 few-shot 或许会改变机器翻译的范式 第3张

两个大语种的翻译上,做者的模子逃平或超越了往期冠军、以至战胜了自家的 Google Translate 在线办事。

下表为小语种冰岛语的翻译效果。因为冰岛语较少,做者现实上是先在英、德单语上预训练,再在冰岛语单语上训练的(做者声称那种办法其实不影响最末效果、只是为了训练启动更快)。有趣的一点是同为大模子的 PaLM 在小语种上效果很差,而本文的办法反而不错。

大语言模型的 few-shot 或许会改变机器翻译的范式 第4张

小语种的翻译上不及往期冠军,但远超自家的大语言模子、比肩 Google Translate

此外论文还秀了一些术语翻译、气概化翻译的效果。那里仅介绍一个尝试:做者利用了 IWSLT’22 的相关使命数据集(白话化翻译和书面语化翻译)。prompt 模板中填入的 dev set 被证明能够很好地控造翻译气概:

大语言模型的 few-shot 或许会改变机器翻译的范式 第5张

UMD 是当期冠军。做者的 few-shot 展现了与之匹敌的效果

笔者简评

笔者起首要指出的是,论文的评测可能存在一些问题, 值得我们隆重看待 :

评估目标的问题:做者引用同组内的研究[https://arxiv.org/abs/2211.09102], 声称 BLEU 那种 n-gram 的目标不克不及优良地权衡大型 LM 生成的成果,而优先利用了 BLEURT。然而,BLEURT 也有许多缺陷:一是 BLEURT 比力对翻译流利度的偏好高于准确度,而大语言模子擅长生成好句子、同时 few-shot 模子在翻译时经常有漏译的问题,做者们选用 BLEURT 有锐意扬长避短的嫌疑;二是 BLEURT 目标和本文模子的训练语料都来自 Google 自家 household 的语料库,那也许会形成评测上的禁绝确(见下文笔者的经历谈*)。大语言模型的 few-shot 或许会改变机器翻译的范式 第6张

做者在附录中低调地陈述了 BLEU 成果,比 SOTA 差 10 个点摆布

数据泄露问题: WMT 测试集的范畴十分单一、集中在新闻。在 WMT 角逐中官方发布的训练集一般是前一年的新闻语料,而测试集是比来发布的新闻,由此制止数据泄露。而本文用到的是收集爬取的语料等,若是此中有和测试集类似的新闻报导,很有可能模子。虽然做者做了 training set 和 test set 间 token-level 的堆叠度阐发,但一方面做者用的目标相对宽松、需要有 15 个 token 不异才视为堆叠——即使如斯堆叠度在1%的程度;另一方面,正如做者认为 BLEU 那种 token-level 的目标不切确一样,token-level 的堆叠度一样不克不及很好地权衡范畴类似度,词不类似但范畴类似的训练数据一样能带来在测试集上的过拟合。大语言模型的 few-shot 或许会改变机器翻译的范式 第7张

训练集和测试集的 overlap 权衡。测试集句子有 15 个 token 与训练集某句不异时,记为一次 overlap

Scaling 的问题: neural scaling law 及一些大模子的讨论工做展现了大语料+大模子能大幅提拔 NLP 效果。做为 Google 的研究团队,做者们必定不缺乏数据,然而论文只摸索了 100M 级此外训练效果。我们应当思虑,论文的办法在更大数据下的性能能否也会根据 scaling law 那样增长?笔者认为做者们有做加数据的尝试,但可能性能的提拔效果不如预期。

*笔者在工做中也经常比力各大公司的翻译效果。在几家竞品翻译人工评估成果类似的情况下,BLEURT 最偏好 Google Translate 的成果,有可能是两者用了不异的训练数据。

*根据之前笔者参与 WMT 角逐的经历,有一个常见的竞赛的 trick 是在往期的 dev set 上做微量精调[https://aclanthology.org/W19-5341.pdf], 此法能够小幅度提拔 BLEU 值( 1-3 BLEU),那是因为 WMT 对 dev/test set 的译文气概有着较强的一致性控造。笔者根据本文的办法丈量了往期 en-de 的 dev/test set 的 15 token 重合度,都不超越 0.3%,侧面申明做者的 overlap 目标出缺陷。此外,德语、冰岛语做为屈折语,同个单词的词形变革十分地丰硕,不清晰做者算 overlap 时有没有对单词做 stemming。

但即使论文尝试上出缺陷、行文也几有些 overclaim,笔者认为那篇论文足够冷艳。

其一,做者的那一套办法几乎不依赖双语数据、对单语数据的要求也很少,独一的门槛在于模子较大 (8 B)。然而在可见的将来,大语言模子做为大势所趋,那个量级的模子的摆设和训练也会越来越容易、也会有更多类似 BLOOM 的开源。即使做者的办法不克不及完全打败传统双语训练的模子,也极大地降低了机器翻译模子的门槛,尤其是数据门槛。

其二,做者的办法关于小语种翻译模子的训练范式(尤其是无监视机器翻译)能够说是降维冲击。

其三,则是告诉我们大规模语言模子还有良多奇异性量。之前的 seq2seq 范式下,单语 pretrain +双语 few-shot 的效果其实不好,良多时候得要用 Back-translation 等才气到达合格的程度。而本文通过把模子加大就间接处理了该类问题。Large LM 的潜力比我们料想的强。

此外还有一小点:气概化翻译、术语翻译、特定范畴是上一代机器翻译没有很好处理的问题,本篇论文给了一些 prompt 上的经历参考,能够说是给了一种低开销的 prompt 计划(考虑到近期 NLP 社区也都在用 prompt 和 context learning 的办法来做那些使命了,没有那篇论文,那类问题的手艺途径也是大致确定的)

做者:墨耀明

来源:微信公家号:字节跳动手艺团队

出处:https://mp.weixin.电话.com/s/HTjKOlK2RKfyYiFXvDB99g