Alexa teacher model: Pretraining and distilling multi-billion-parameter encoders for natural language understanding systems

Jack G. M. FitzGerald; Shankar Ananthakrishnan; Konstantine Arkoudas; Davide Bernardi; Abhishek Bhagia; Claudio Delli Bovi; Jin Cao; Rakesh Chada; Amit Chauhan; Luoxin Chen; Anurag Dwarakanath; Satyam Dwivedi; Turan Gojayev; Karthik Gopalakrishnan; Thomas Gueudre; Dilek Hakkani-Tür; Wael Hamza; Jonathan Hueser; Kevin Martin Jose; Haidar Khan; Beiye Liu; Jianhua Lu; Alessandro Manzotti; Pradeep Natarajan; Karolina Owczarzak; Goekmen Oez; Enrico Palumbo; Charith Peris; Chandana Satya Prakash; Stephen Rawls; Andy Rosenbaum; Anjali Shenoy; Saleh Soltan; Mukund Harakere; Liz Tan; Fabian Triefenbach; Pan WEI; Haiyang Yu; Shuai Zheng; Gokhan Tur; Prem Natarajan

Publication

Alexa teacher model: Pretraining and distilling multi-billion-parameter encoders for natural language understanding systems

By Jack G. M. FitzGerald, Shankar Ananthakrishnan, Konstantine Arkoudas, Davide Bernardi, Abhishek Bhagia, Claudio Delli Bovi, Jin Cao, Rakesh Chada, Amit Chauhan, Luoxin Chen, Anurag Dwarakanath, Satyam Dwivedi, Turan Gojayev, Karthik Gopalakrishnan, Thomas Gueudre, Dilek Hakkani-Tür, Wael Hamza, Jonathan Hueser, Kevin Martin Jose, Haidar Khan, Beiye Liu, Jianhua Lu, Alessandro Manzotti, Pradeep Natarajan, Karolina Owczarzak, Goekmen Oez, Enrico Palumbo, Charith Peris, Chandana Satya Prakash, Stephen Rawls, Andy Rosenbaum, Anjali Shenoy, Saleh Soltan, Mukund Harakere, Liz Tan, Fabian Triefenbach, Pan WEI, Haiyang Yu, Shuai Zheng, Gokhan Tur, Prem Natarajan

2022

Download Copy BibTeX

@Article{FitzGerald2022,
 author = {Jack G. M. FitzGerald and Shankar Ananthakrishnan and Konstantine Arkoudas and Davide Bernardi and Abhishek Bhagia and Claudio Delli Bovi and Jin Cao and Rakesh Chada and Amit Chauhan and Luoxin Chen and Anurag Dwarakanath and Satyam Dwivedi and Turan Gojayev and Karthik Gopalakrishnan and Thomas Gueudre and Dilek Hakkani-Tür and Wael Hamza and Jonathan Hueser and Kevin Martin Jose and Haidar Khan and Beiye Liu and Jianhua Lu and Alessandro Manzotti and Pradeep Natarajan and Karolina Owczarzak and Goekmen Oez and Enrico Palumbo and Charith Peris and Chandana Satya Prakash and Stephen Rawls and Andy Rosenbaum and Anjali Shenoy and Saleh Soltan and Mukund Harakere and Liz Tan and Fabian Triefenbach and Pan WEI and Haiyang Yu and Shuai Zheng and Gokhan Tur and Prem Natarajan},
 title = {Alexa teacher model: Pretraining and distilling multi-billion-parameter encoders for natural language understanding systems},
 year = {2022},
 url = {https://www.amazon.science/publications/alexa-teacher-model-pretraining-and-distilling-multi-billion-parameter-encoders-for-natural-language-understanding-systems},
}

Share

Download

Copy BibTeX

@Article{FitzGerald2022,
 author = {Jack G. M. FitzGerald and Shankar Ananthakrishnan and Konstantine Arkoudas and Davide Bernardi and Abhishek Bhagia and Claudio Delli Bovi and Jin Cao and Rakesh Chada and Amit Chauhan and Luoxin Chen and Anurag Dwarakanath and Satyam Dwivedi and Turan Gojayev and Karthik Gopalakrishnan and Thomas Gueudre and Dilek Hakkani-Tür and Wael Hamza and Jonathan Hueser and Kevin Martin Jose and Haidar Khan and Beiye Liu and Jianhua Lu and Alessandro Manzotti and Pradeep Natarajan and Karolina Owczarzak and Goekmen Oez and Enrico Palumbo and Charith Peris and Chandana Satya Prakash and Stephen Rawls and Andy Rosenbaum and Anjali Shenoy and Saleh Soltan and Mukund Harakere and Liz Tan and Fabian Triefenbach and Pan WEI and Haiyang Yu and Shuai Zheng and Gokhan Tur and Prem Natarajan},
 title = {Alexa teacher model: Pretraining and distilling multi-billion-parameter encoders for natural language understanding systems},
 year = {2022},
 url = {https://www.amazon.science/publications/alexa-teacher-model-pretraining-and-distilling-multi-billion-parameter-encoders-for-natural-language-understanding-systems},
}

Share

We present results from a large-scale experiment on pretraining encoders with non-embedding parameter counts ranging from 700M to 9.3B, their subsequent distillation into smaller models ranging from 17M-170M parameters, and their application to the Natural Language Understanding (NLU) component of a virtual assistant system. Though we train using 70% spoken-form data, our teacher models perform comparably to XLM-R and mT5 when evaluated on the written-form Cross-lingual Natural Language Inference (XNLI) corpus. We perform a second stage of pretraining on our teacher models using in-domain data from our system, improving error rates by 3.86% relative for intent classification and 7.01% relative for slot filling. We find that even a 170M-parameter model distilled from our Stage 2 teacher model has 2.88% better intent classification and 7.69% better slot filling error rates when compared to the 2.3B-parameter teacher trained only on public data (Stage 1), emphasizing the importance of in-domain data for pretraining. When evaluated offline using labeled NLU data, our 17M-parameter Stage 2 distilled model outperforms both XLM-R Base (85M params) and DistillBERT (42M params) by 4.23% to 6.14%, respectively. Finally, we present results from a full virtual assistant experimentation platform, where we find that models trained using our pretraining and distillation pipeline outperform models distilled from 85M parameter teachers by 3.74%-4.91% on an automatic measurement of full-system user dissatisfaction.

Alexa teacher model: Pretraining and distilling multi-billion-parameter encoders for natural language understanding systems

Latest news

Work with us