近日,蚂网络团开源了一套新算法hongkongdoll 露脸,可匡助大模子在推理时,提速2至6倍,引起业内暖热。
这套新算法名为Lookahead推理加快框架,能作念到成果无损,即插即用,该算法已在蚂蚁宽阔场景进行了落地,大幅缩小了推理耗时。
以Llama2-7B-chat模子与Dolly数据集为例,实测token生成速率可由48.2个/秒,升至112.9个/秒,提速2.34倍。而在蚂蚁里面的RAG(检索增强生成)数据集上,百灵大模子AntGLM 10B版块的加快比达到5.36,与此同期,显存加多和内存滥用简直不错忽略。
当下的大模子基本是基于自追想解码,每一步解码仅生成一个token,这种操作花样既奢靡了GPU的并行处罚能力,也导致用户体验延长过高,影响使用领略度。
Hongkongdoll videos举个例子,蓝本的token生成经由,就像早期中语输入法,一路向西电影只可一个字一个字“敲”出来,继承了蚂蚁的加快算法后,token生设立像联念念输入法,有些整句可告成“蹦”出来。
此前业内有小数的优化算法,主要皆集在奈何生成更好的草稿(即揣摸生成token的序列)上,然而奉行阐扬注解草稿在跨越30个token长度后,端到端的推理效用就无法进一步提升,然而这个长度远莫得充分诓骗GPU的运算能力。
为了进一步压榨硬件性能,蚂蚁Lookahead推理加快算法继承了多分支的计策,即草稿序列不再只是包含一条分支,而是包含多条并行的分支,多条分支在一次前向经由中进行并行考据。因此不错在耗时基本不变的前提下,提升一次前向经由生成的token个数。
再进一步,蚂蚁Lookahead推理加快算法诓骗trie树存储和检索token序列,并将多条草稿中相易的父节点进行吞并,进一步提升了计较效用。为了提升易用性,trie树的构建不依赖额外的草稿模子,只诓骗推理经由中的prompt及生成的复兴进步履态构建,缩小了用户的接入资本。
公开信息露出,蚂网络团基于丰富的业务场景需求,在东谈主工智能标的握续插足hongkongdoll 露脸,布局了包括大模子、常识图谱、运筹优化、图学习、确实AI等本领范围。