分享
Roberta
输入“/”快速插入内容
Roberta
2024年7月9日创建
•
论文:RoBERTa: A Robustly Optimized BERT Pretraining Approach
•
地址:
https://arxiv.org/pdf/1907.11692.pdf
•
源码:
https://github.com/pytorch/fairseq
看了一眼RoBERTa的作者和前面SpanBERT的作者基本都是一样的...可以...这都不是重点!重点是-----XLNet屠榜了,BERT坐不住了,文章指出BERT是完完全全的**underfit**,于是他们又对BERT进行了一次改造计划,当然,最终结果又是:屠榜。恭喜BERT重回榜首 :)
Our training improvements show that masked language model pretraining, under the right design choices, is competitive with all other recently published methods.
整理了一下RoBERTa相比原始BERT模型的新的配方:
•
使用更大的预训练语料(BERT为16G,RoBERTa直接到了160G)
•
更长的训练时间:100k to 300k steps
•
更大的batch:2k to 8k
•
丢弃了NSP任务
•
使用**full-length sequences**,而不是截断的文本
•
修改**static masking**策略为
dynamic masking
•
优化器参数调整
动态掩码
在原始的BERT实现中,mask操作是在数据预处理的时候就完成的,这样在每个训练epoch中数据的mask位置都是相同的,这显然是不太合适的。而动态mask则是对于每一个输入都生成一次新的mask,这对于更大训练数据集/更大训练步数是很重要的。实验结果如下,dynamic masking效果是比static好了一点点,但是四舍五入等于一样...
NSP任务
同XLNet/SpanBERT一样,作者在这里也是发现NSP任务对下游任务并不会起到帮助甚至有点小危害,