全能不如专精!微软发布Z-code++屠榜文本摘要,参数量仅为PaLM的1/600(5)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
DeBERTa的实验表明,DA比SA更有效地编码了Transformer模型中的位置依赖,Z-Code++在建模中采用了DA,实验结果也表明DA可以训练出一个更有效的抽象式摘要器。
最后是Z-coder对长序列输入的编码。考虑到自注意和DA的二次方内存和计算复杂度,对长序列进行编码是相当费时费力的。
虽然有各种稀疏的注意力机制被提出来以缓解这个问题,但由于注意力精度的降低,稀疏注意力机制往往会损害短序列的性能。
受fusion-in-decoder和hierarchical transformer的启发,研究人员提出了fusion-in-encoder(FiE),通过一种简单而有效的机制来编码长序列,同时在短序列上保留高注意力精度。
FiE的工作原理是将Z-Code++的L个编码器层分离成m个局部层和n个全局层。在每个局部层中,输入序列的隐藏状态被分割成大小为如256或512个小块,自注意(或DA)只应用于这些小块的局部。在局部层之后,这些小块的隐藏状态被级联起来,形成长序列的表示。全局层与编码器中的原始自注意力(或DA)层相同,以融合小块的局部状态。
FiE将编码器的复杂度从O(LN^2)降低到O(mNl+nN^2),而且实验结果可以发现Z-coder++在长文本摘要任务上比为专门为摘要任务设计的LongT5中的机制实现了持平或更好的性能。
在实验部分,研究人员将Z-Code++和PEGASUS在7个具有代表性的标准公共英语摘要数据集上的性能进行比较,这些数据集的文档长度适中,包括AESLC、SAMSum、XSUM、WikiHow、NewsRoom、CNN/DailyMail(CNNDM),以及Reddit TIFU
可以看到Z-Code++在7个任务中的6个任务中,在ROUGE-2的F评分比PEGASUS取得了很大的改进。
99科技网:http://www.99it.com.cn
