MetaAI科学家解读最新模型:200+语言互译,千倍翻译数据,全球元宇宙用户自由交流(3)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
当MoE进入机器翻译,防止过拟合成为重点
模型的优化是研究者面临的第二个问题。在架构上,研究者采用了典型的Transformer架构,但是用了稀疏方法(专家模块),在不增加模型需要激活的参数情况下扩大其规模。然而,MoE模型面临的一个主要问题是过拟合。需要研究出新的方法来构建MoE模型。 NLLB的架构是由Transformer组成的。首先来看基础的Transformer层,其中包含正则化层、多头注意力层和前向网络(FFN),而这个层可以重复很多次(N),比如6个这种层的堆叠,甚至是24或者更多。对于MoE而言,其将单个的FFN替换为多个专家模块,如FFN_1到FFN_e。此外,FFN之前有MoE Gating模块,来决定应该由哪些FFN来进行计算。Gating一般来决定前K(Top-K)个专家模块进行计算。 由于MoE容易在翻译低资源语言时出现过拟合,因此研究者需要采用一些方法。例如,在英语向法语和英语向刚果语的翻译过程中可以看到,通常情况下,研究者会在其中加入Dropout层,但和密集模型进行对比可以发现,即使是加入了Dropout层的情况下,模型依然出现过拟合的情况。在这里,研究者采用了名为EOM(Experts Output Masking)的方法,代替了Dropout简单地去掉激活的方法。 EOM的方法主要是对不同的专家输出进行遮盖。如下图所示,红绿蓝三色代表不同的Token,在路由过程中由不同的专家模块进行处理。在经过专家处理后,EoM会对部分专家的输出进行随机的遮盖。最后的输出是多个专家的加权和。 EOM能够提升模型的鲁棒性。考虑到MoE模块中带有残差连接层,所以当遮盖了一些专家后,模型不会非常地依赖混合专家模块,而是能够从残差连接中得到学习。此外,对于一些专家进行遮盖,能够避免让模型总是依赖于某一个专家,避免输出结果和某个专家特别绑定。 总结NLLB的技术,在数据层面,研究者训练了LASER-3模型,用于编码和学习不同语言的表示。同时他们训练了一个语言辨别模型,并探索了过滤、清洗等手段。在建模层面,NLLB模型整体上使用了MoE,但研究者也探索了教师学习、自监督学习等方法。 在共同努力合作的情况下,团队最终研发了NLLB-200模型。研究者还公开了200+种语言的验证数据集(FLORES-200)。此外,研究者还公开了有害言论列表,帮助用户来清除这些言论。
NLLB性能对比
99科技网:http://www.99it.com.cn
