hongkongdoll 露脸蚂网络团开源新算法，可助大模子推理提速2-6倍

发布日期：2024-11-21 00:34 点击次数：60

　　近日，蚂网络团开源了一套新算法hongkongdoll 露脸，可匡助大模子在推理时，提速2至6倍，引起业内暖热。

　　这套新算法名为Lookahead推理加快框架，能作念到成果无损，即插即用，该算法已在蚂蚁宽阔场景进行了落地，大幅缩小了推理耗时。

　　以Llama2-7B-chat模子与Dolly数据集为例，实测token生成速率可由48.2个/秒，升至112.9个/秒，提速2.34倍。而在蚂蚁里面的RAG（检索增强生成）数据集上，百灵大模子AntGLM 10B版块的加快比达到5.36，与此同期，显存加多和内存滥用简直不错忽略。

　　当下的大模子基本是基于自追想解码，每一步解码仅生成一个token，这种操作花样既奢靡了GPU的并行处罚能力，也导致用户体验延长过高，影响使用领略度。

　　举个例子，蓝本的token生成经由，就像早期中语输入法，一路向西电影只可一个字一个字“敲”出来，继承了蚂蚁的加快算法后，token生设立像联念念输入法，有些整句可告成“蹦”出来。

　　此前业内有小数的优化算法，主要皆集在奈何生成更好的草稿（即揣摸生成token的序列）上，然而奉行阐扬注解草稿在跨越30个token长度后，端到端的推理效用就无法进一步提升，然而这个长度远莫得充分诓骗GPU的运算能力。

　　为了进一步压榨硬件性能，蚂蚁Lookahead推理加快算法继承了多分支的计策，即草稿序列不再只是包含一条分支，而是包含多条并行的分支，多条分支在一次前向经由中进行并行考据。因此不错在耗时基本不变的前提下，提升一次前向经由生成的token个数。

　　再进一步，蚂蚁Lookahead推理加快算法诓骗trie树存储和检索token序列，并将多条草稿中相易的父节点进行吞并，进一步提升了计较效用。为了提升易用性，trie树的构建不依赖额外的草稿模子，只诓骗推理经由中的prompt及生成的复兴进步履态构建，缩小了用户的接入资本。

　　公开信息露出，蚂网络团基于丰富的业务场景需求，在东谈主工智能标的握续插足hongkongdoll 露脸，布局了包括大模子、常识图谱、运筹优化、图学习、确实AI等本领范围。