Transformer-Lite:大型语言模型在手机gpu上的高效部署

4/16/2024

https://www.chatbro.cn/news/661e9a9f45047b1e992ad48f

大型语言模型（LLM）被广泛应用于智能助手、文本摘要、翻译和手机上的多模态任务等领域。然而，目前设备上部署LLM的方法存在推理速度慢的问题，导致用户体验不佳。为了提高设备GPU上LLM部署的效率，研究者们提出了四种优化技术：一是采用基于符号表达的方法来支持动态形状模型的推理；二是进行操作符优化和执行优先级设置，以提高推理速度，减少手机卡顿；三是引入一种称为M0E4的FP4量化方法，以降低反量化开销；四是基于子张量的技术，消除在LLM推理后拷贝KV缓存的需要。研究者们将这些方法应用在他们开发的移动推理引擎Transformer-Lite中，该引擎兼容高通和MTK处理器。通过使用不同架构和参数范围从2B到14B的LLM进行测试，Transformer-Lite在性能上取得了显著提升。具体来说，对于6B参数的ChatGLM2，达到了每秒处理121个token的预填充速度和14个token的解码速度；而对于更小的2B参数的Gemma模型，则分别达到了330个token/s和30个token/s的速度。与基于CPU的FastLLM和基于GPU的MLC-LLM相比，Transformer-Lite在预填充速度上实现了超过10倍的加速，在解码速度上则实现了2到3倍的提升。