论文修改100遍也别慌!Meta发布全新写作语言模型PEER:参考文献都会加(4)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
1、仅使用维基百科训练得到的模型在预期文本内容的样子和预测的计划和编辑方面需要和维基百科相似;
2、维基百科中的评论是有噪音的,因此在许多情况下,评论并不是计划或解释的恰当输入;
3、维基百科中的许多段落不包含任何引文,虽然这种背景信息的缺乏可以通过使用检索系统来弥补,但即使这样的系统也可能无法为许多编辑找到支持性的背景信息。
研究人员提出了一个简单的方法来解决因维基百科是唯一的评论编辑历史来源而产生的所有问题:即训练多个PEER实例,并用这些实例学习填充编辑过程的各个环节。这些模型可以用来生成合成数据作为训练语料库中缺失部分的替代。
最终训练得到 四个encoder-decoder模型 :
1、PEER-Edit的输入为文本x和一组文档,模型输出为计划和编辑后的文本,其中p为计划文本。
2、PEER-Undo的输入为编辑后的文本和一组文档,模型输出结果为是否撤销该次编辑。
3、PEER-Explain用来生成该次编辑的解释,输入为源文本、编辑后的文本和一组相关文档。
4、 PEER-Document输入源文本、编辑后的文本和计划,模型输出为该次编辑中最有用的背景信息。
PEER的所有变体模型都用来生成合成数据,既生成缺失的部分来补充的训练数据,也用来替换现有数据中的「低质量」部分。
99科技网:http://www.99it.com.cn
