主页 > 快资讯 > 正文

全能不如专精!微软发布Z-code++屠榜文本摘要,参数量仅为PaLM的1/600(5)

2022-09-15 13:24来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

DeBERTa的实验表明,DA比SA更有效地编码了Transformer模型中的位置依赖,Z-Code++在建模中采用了DA,实验结果也表明DA可以训练出一个更有效的抽象式摘要器。

最后是Z-coder对长序列输入的编码。考虑到自注意和DA的二次方内存和计算复杂度,对长序列进行编码是相当费时费力的。

虽然有各种稀疏的注意力机制被提出来以缓解这个问题,但由于注意力精度的降低,稀疏注意力机制往往会损害短序列的性能。

受fusion-in-decoder和hierarchical transformer的启发,研究人员提出了fusion-in-encoder(FiE),通过一种简单而有效的机制来编码长序列,同时在短序列上保留高注意力精度。

FiE的工作原理是将Z-Code++的L个编码器层分离成m个局部层和n个全局层。在每个局部层中,输入序列的隐藏状态被分割成大小为如256或512个小块,自注意(或DA)只应用于这些小块的局部。在局部层之后,这些小块的隐藏状态被级联起来,形成长序列的表示。全局层与编码器中的原始自注意力(或DA)层相同,以融合小块的局部状态。

FiE将编码器的复杂度从O(LN^2)降低到O(mNl+nN^2),而且实验结果可以发现Z-coder++在长文本摘要任务上比为专门为摘要任务设计的LongT5中的机制实现了持平或更好的性能。

在实验部分,研究人员将Z-Code++和PEGASUS在7个具有代表性的标准公共英语摘要数据集上的性能进行比较,这些数据集的文档长度适中,包括AESLC、SAMSum、XSUM、WikiHow、NewsRoom、CNN/DailyMail(CNNDM),以及Reddit TIFU

可以看到Z-Code++在7个任务中的6个任务中,在ROUGE-2的F评分比PEGASUS取得了很大的改进。

99科技网:http://www.99it.com.cn

相关推荐
杉川深耕机器人领域多年 荣获国家级专精特新“小巨人” 杉川深耕机器人领域多年 荣获国家级专精特新“小巨人”

近期,北京市经济和信息化局发布了工业和信息化部组织的《第四批专精特新小

快资讯2022-08-30

全能不如专精!微软发布Z-code++屠榜文本摘要,参数量仅为PaLM的1/600 全能不如专精!微软发布Z-code++屠榜文本摘要,参数量仅为PaLM的1/600

超大规模预训练模型混战之后,NLP模型该走向何方?

快资讯2022-08-25

特斯拉的车机这么拉胯?马斯克公开吐槽:还不如5年前的iPad 特斯拉的车机这么拉胯?马斯克公开吐槽:还不如5年前的iPad

近日,特斯拉创始人埃隆·马斯克公开吐槽了特斯拉的车机系统,他表示,特斯

快资讯2022-08-06

八成专精特新未上市,哪些能成为“北交所后备军”? 八成专精特新未上市,哪些能成为“北交所后备军”?

深耕专业领域的专精特新企业,已从昔日的坐足冷板凳发展到如今广受认可。不

快资讯2022-08-01

大力培育“专精特新”企业 大力培育“专精特新”企业

近年来,我国不断加大“专精特新”企业培育力度,推动“专精特新”企业在产

快资讯2022-07-30

中国足球是时候抛弃“技不如人”这个借口了 中国足球是时候抛弃“技不如人”这个借口了

中国男足选拔队在普遍不被看好的情况下,逼平主场作战的日本队,让人颇感意

快资讯2022-07-25

618高性价比、全能轻薄本怎么选?这篇文章说清楚 618高性价比、全能轻薄本怎么选?这篇文章说清楚

今年的618促销依然是如火如荼,笔记本电脑市场更是出现了许多好价好产品,不

快资讯2022-07-23

第四批专精特新“小巨人”企业培育工作启动 第四批专精特新“小巨人”企业培育工作启动

记者从工信部获悉,工信部6月15日印发通知,组织开展第四批专精特新“小巨人

快资讯2022-07-21

建设“专精尖”大学是教育高质量发展的应有之义 建设“专精尖”大学是教育高质量发展的应有之义

  近日,在“2021高等教育国际论坛年会”上,中国高等教育学会会长杜玉波

快资讯2022-07-21

格力空调全能王i尊自动清洗功能怎么用 格力空调全能王i尊自动清洗功能怎么用

内机的话可以开启制冷模式,用内机清洗剂清洗。只需要喷到需要清洗的地方,

快资讯2022-07-21