MetaAI科学家解读最新模型：200+语言互译，千倍翻译数据，全球元宇宙用户自由交流(3)

2022-08-31 12:15来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

当MoE进入机器翻译，防止过拟合成为重点

模型的优化是研究者面临的第二个问题。在架构上，研究者采用了典型的Transformer架构，但是用了稀疏方法（专家模块），在不增加模型需要激活的参数情况下扩大其规模。然而，MoE模型面临的一个主要问题是过拟合。需要研究出新的方法来构建MoE模型。 NLLB的架构是由Transformer组成的。首先来看基础的Transformer层，其中包含正则化层、多头注意力层和前向网络（FFN），而这个层可以重复很多次（N），比如6个这种层的堆叠，甚至是24或者更多。对于MoE而言，其将单个的FFN替换为多个专家模块，如FFN_1到FFN_e。此外，FFN之前有MoE Gating模块，来决定应该由哪些FFN来进行计算。Gating一般来决定前K（Top-K）个专家模块进行计算。由于MoE容易在翻译低资源语言时出现过拟合，因此研究者需要采用一些方法。例如，在英语向法语和英语向刚果语的翻译过程中可以看到，通常情况下，研究者会在其中加入Dropout层，但和密集模型进行对比可以发现，即使是加入了Dropout层的情况下，模型依然出现过拟合的情况。在这里，研究者采用了名为EOM（Experts Output Masking）的方法，代替了Dropout简单地去掉激活的方法。 EOM的方法主要是对不同的专家输出进行遮盖。如下图所示，红绿蓝三色代表不同的Token，在路由过程中由不同的专家模块进行处理。在经过专家处理后，EoM会对部分专家的输出进行随机的遮盖。最后的输出是多个专家的加权和。 EOM能够提升模型的鲁棒性。考虑到MoE模块中带有残差连接层，所以当遮盖了一些专家后，模型不会非常地依赖混合专家模块，而是能够从残差连接中得到学习。此外，对于一些专家进行遮盖，能够避免让模型总是依赖于某一个专家，避免输出结果和某个专家特别绑定。总结NLLB的技术，在数据层面，研究者训练了LASER-3模型，用于编码和学习不同语言的表示。同时他们训练了一个语言辨别模型，并探索了过滤、清洗等手段。在建模层面，NLLB模型整体上使用了MoE，但研究者也探索了教师学习、自监督学习等方法。在共同努力合作的情况下，团队最终研发了NLLB-200模型。研究者还公开了200+种语言的验证数据集（FLORES-200）。此外，研究者还公开了有害言论列表，帮助用户来清除这些言论。

NLLB性能对比

99科技网：http://www.99it.com.cn

共5页:
上一页
1
2
3
4
5
下一页

相关推荐

针对深度学习的“失忆症”，科学家提出基于相似性加权交错学习
本文介绍了神经科学和机器学习的进一步发展。

元宇宙2022-08-28

巨头重估元宇宙，带你全方位解读元宇宙
从闻所未闻，到家喻户晓，脱胎于科幻小说的元宇宙，在过去的一年迎来了集中

元宇宙2022-08-12

现实版头号玩家来了！科学家突破VR应用瓶颈实现高精度视觉惯性手部运动跟踪
原标题：现实版头号玩家来了！科学家突破VR应用瓶颈实现高精度视觉惯性手部

元宇宙2021-10-10

为什么蜜蜂不会迷路？德国科学家用VR跟踪蜜蜂工作时的神经信号变化
原标题：为什么蜜蜂不会迷路？德国科学家用VR跟踪蜜蜂工作时的神经信号变化

元宇宙2019-02-15

VR使药物发现看得见、摸得着科学家打着游戏就把新药给研发了
原标题：VR使药物发现看得见、摸得着科学家打着游戏就把新药给研发了 VR能用

元宇宙2018-07-09

2018 IVRPA大会解读中国VR“淘金热”和VR“寒冬”的现状
原标题：2018 IVRPA大会解读中国VR淘金热和VR寒冬的现状 Kevin在迪士尼动画公司拥

元宇宙2018-06-07

东京大学的科学家使用VR运动来控制成人大型机器人
原标题：东京大学的科学家使用VR运动来控制成人大型机器人在上个月加拿大温

元宇宙2017-10-26

德国科学家脑洞有点大用VR解决自动驾驶的道德问题？
原标题：德国科学家脑洞有点大用VR解决自动驾驶的道德问题？据外媒报道，

元宇宙2017-07-23

科学家正研究用VR设备来减轻看牙医的痛苦减少病人对止疼药的依
原标题：科学家正研究用VR设备来减轻看牙医的痛苦减少病人对止疼药的依赖

元宇宙2017-06-16

头条资讯

元宇宙概念为何爆发，互联网技术枯竭

音乐对顾客心理的影响

县级加盟什么店挣钱？

加盟雪丰建材需要什么条件？

未来经济发展的趋势？

推荐资讯

win7系统应用程序提示0x00000010错误怎么解决方法

OPPO,Vivo,华为，小米，哪个手机和智能手表更胜一筹？

在小县城开一家什么店比较赚钱?

在县城，做什么项目能挣大钱？

未来价值投资在哪里，未来经济世界又有着怎样的联系？

最近更新

MetaAI科学家解读最新模型：200+语言互译，千倍翻译数据，全球元宇宙用户自由交流

唐诗、东北话、谐音梗……人工智能还有什么是不能翻译的吗？

太空科技初创公司LiveEO完成1900万欧元融资，为工业界带来太空数据洞察

商汤科技推出首款消费级机器人「元萝卜」：让产业级AI技术走进千家万户

AI翻译机让外国人听懂“东北话十级”