MT-DNN-2.0

2024年7月9日创建

附件不支持打印

common.docs_name - LarkCCM_Docs_Menu_Image

•

论文：Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding

•

地址：https://arxiv.org/pdf/1904.09482.pdf

•

源码：https://github.com/namisan/mt-dnn

虽然 ensemble 模型可以有效提高模型表现，但是由于集成学习的规模十分之巨大，导致运算和部署的成本非常高。显然 MT-DNN 的作者也考虑到了这个问题，于是提出了改进版：MT-DNN-2，采用知识蒸馏的方式，将庞大复杂的 teacher 模型所学习到的 “知识” 给蒸馏出来转移到一个更小的 student 模型，并保证不会有明显的损失。

本文采用的 base model 就是 MT-DNN，其具体结构以训练方式都在上一节介绍过。下面我们关注知识蒸馏部分。

附件不支持打印

MT-DNN-2.0​

MT-DNN-2.0