MT-DNN-2.0
MT-DNN-2.0
2024年7月9日创建
附件不支持打印
加载失败,
•
论文:Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding
虽然 ensemble 模型可以有效提高模型表现,但是由于集成学习的规模十分之巨大,导致运算和部署的成本非常高。显然 MT-DNN 的作者也考虑到了这个问题,于是提出了改进版:MT-DNN-2,采用知识蒸馏的方式,将庞大复杂的 teacher 模型所学习到的 “知识” 给蒸馏出来转移到一个更小的 student 模型,并保证不会有明显的损失。