MT-DNN-2.0
MT-DNN-2.0
2024年7月9日创建
附件不支持打印
•
论文:Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding
虽然 ensemble 模型可以有效提高模型表现,但是由于集成学习的规模十分之巨大,导致运算和部署的成本非常高。显然 MT-DNN 的作者也考虑到了这个问题,于是提出了改进版:MT-DNN-2,采用知识蒸馏的方式,将庞大复杂的 teacher 模型所学习到的 “知识” 给蒸馏出来转移到一个更小的 student 模型,并保证不会有明显的损失。
本文采用的 base model 就是 MT-DNN,其具体结构以训练方式都在上一节介绍过。下面我们关注知识蒸馏部分。
附件不支持打印