全能不如专精!微软发布Z-code++屠榜文本摘要,参数量仅为PaLM的1/600(3)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
Z-Code的翻译效果非常好,也被应用到微软的各项产品中,以提高机器翻译的质量。
鉴于Z-Code不俗的表现,开发团队又进一步将Z-Code升级拓展为Z-Code++,使其可以完成文本摘要任务,并在GENIE benchmark上取得了第一名的好成绩。
文本摘要(text summarization)是自然语言处理领域的经典任务,输入一段长文本,输出的结果是一段简洁且流畅的摘要,字数更少,但需要保留源文档中的关键内容。
当下的摘要模型可以分为两类,抽取式摘要模型直接从源文本中抽取出重要的内容组成摘要;抽象式摘要模型则是重新组织语言,复述一遍内容以生成摘要。
相比之下,抽象式摘要更灵活,在提升文本摘要质量上更有潜力,所以相关研究也更多。但抽象式摘要模型的开发也更难,模型需要处理诸如语义表征、推理和低资源文本生成等问题。
近期的抽象式文本摘要模型都是基于大规模的预训练语言模型(PLMs),如PEGASUS、GPT、T5进行开发的,虽然这些模型可以生成非常流畅的文本,但生成的摘要往往包含与原文中不一致的事实,这种现象也被称为hallucination问题。
此外,由于源文件中的文本量可能非常大,考虑到当前硬件的内存限制和交互式信息检索的在线文档摘要等应用的延迟限制,训练一个端到端的抽象式文摘模型的代价是很大的。
所以常用的训练模式都是两阶段方法,即先用一个抽取式摘要器粗略地选择文档句子的子集,然后由一个抽象式摘要器在抽取的基础上生成摘要,但这种方法仍然不是最优解,因为在抽取的过程中可能会遗漏重要信息。
99科技网:http://www.99it.com.cn
