那么上述思想具体是怎么实现的呢?注意一下这里输入不同的排列组合不是真正地打乱原始输入,而是在网络结构内部进行一些操作让模型认为你的输入顺序改变了,因为我们在最后预测的时候输入是不会变的。这些操作就是通过**注意力掩码**来实现的,其实这个思想在之前的 Unified Language Model Pre-training for Natural Language Understanding and Generation(Microsoft/2019) 也有出现过。下面简单介绍一下具体的双流注意力