Transformer-Lite:大型语言模型在手机gpu上的高效部署
大型语言模型(LLM)被广泛应用于智能助手、文本摘要、翻译和手机上的多模态任务等领域。然而,目前设备上部署LLM的方法存在推理速度慢的问题,导致用户体验不佳。为了提高设备GPU上LLM部署的效率,研究者们提出了四种优化技术:一是采用基于符号表达的方法来支持动态形状模型的推理;二是进行操作符优化和执行优先级设置,以提高推理速度,减少手机卡顿;三是引入一种称为M0E4的FP4量化方法,以降低反量化开销;四是基于子张量的技术,消除在LLM推理后拷贝KV缓存的需要。研究者们将这些方法应用在他们开发的移动推理引擎Transformer-Lite中,该引擎兼容高通和MTK处理器。通过使用不同架构和参数范围从2B到14B的LLM进行测试,Transformer-Lite在性能上取得了显著提升。具体来说,对于6B参数的ChatGLM2,达到了每秒处理121个token的预填充速度和14个token的解码速度;而对于更小的2B参数的Gemma模型,则分别达到了330个token/s和30个token/s的速度。与基于CPU的FastLLM和基于GPU的MLC-LLM相比,Transformer-Lite在预填充速度上实现了超过10倍的加速,在解码速度上则实现了2到3倍的提升。