AI大模型推理优化(附原文pdf文档和DeepSeek资料下载)
cac55 2025-06-30 14:52 3 浏览 0 评论
大模型推理引擎采用了多种定制化的优化技术,针对预填充和解码阶段进行优化。大多数引擎都使用了 KV Caching 避免解码阶段的重复计算,使用缓存的上下文,只计算最新一个 token。引入连续批处理和混合批处理,进一步优化解码阶段性能;对多个请求的分组预填充、分组解码可以更好利用GPU资源。解码阶段使用算子融合和硬件特有的加速计算核,减少每个token生成的开销。算子融合, 比如, 将 LayerNorm, 矩阵乘, 激活函数 融合成一个算子, 减少访存和 Kernel Launch 的开销。量化是另一个主要的优化方法。用 8比特或4比特整型,替换16比特或32比特浮点类型,对内存使用和带宽需求降低, 尤其是在解码阶段。量化模型可以缓存更多的 tokens , 处理更多的并发请求,提升计算速度。
通常 caching, batching, 算子优化, 量化是优化大模型推理服务的 token 吞吐、减少时延的基础方法。在推理引擎中支持这些技术对交付高质量大模型方案非常关键。
Transformer Decoder
注意力机制模块
大模型推理流程
大模型推理和服务流程
大模型推理引擎对比
大模型推理引擎后端硬件支持
大模型推理引擎使用的优化方法
1、Batching 优化
推理请求把多个输入请求分组打包同时处理,提升硬件利用率和吞吐率。除了批大小外,调度方法也会显著影响推理性能。static batching 处理固定数量的请求,新请求需要等待当前批请求完成后,才能开始推理,增加了推理时延。dynamic batching, continuous batching 实时自适应批请求,可以减少推理时延、提升效率。
Dynamic Batching, 在新请求进来的时候,和现有批进行合并或添加到正在处理的进程中,优化资源利用率。实现动态批处理需要优化几个参数,最大等待时间、最小批大小、最大批大小。可能会由于动态改变批大小而引入开销,请求的提示词如果变动很大,或输出 token 长度变动很大,性能会下降。
Continuous Batching 与 Dynamic Batching 相似,但新请求加入的时候不会中断正在处理的批样本,减少了推理时延。请求会连续地插入,最大化GPU和显存利用率。Continuous Batching 要求复杂的调度机制,新请求加入时不中断现有处理流程。高效的 KV Cache 管理也非常关键,经常和 PagedAttention 一起使用。推理引擎 llama.cpp, DeepSpeed-FastGen, vLLM 都使用了 Continuous Batching, 该方案来源于 Orca。
Nano-Batching 由 NanoFlow 引入, 对算子级别切分,单卡上并行 计算、访存、网络通信操作, 最大化利用资源和提高吞吐率。算子粒度分为 attention、KV 生成、GEMM、多卡同步集合通信。动态调整 nano-batch 大小,优化每类资源,调度算法基于硬件资源和算子优化,合并了拓扑排序和贪婪搜索。nano-batching 并发处理可以提升资源利用率,增加了吞吐率,但调度复杂,会导致额外的开销,尤其是多卡处理的时候。
Chunked-prefill 在多卡环境中,内存约束的解码过程存在idle 状态,处理长提示词的时候,可能会增加时延,延误了较短的提示词请求。Chunked-Prefill 把长提示词拆分成多个片段,增量式处理。第一个片段开始解码的同时,后续的片段也可以进行预填充,两个截断可以并发计算,增强了资源利用率。Chunked-Prefill 也引入了调度的复杂度,需要进行更细粒度的批管理。KV Cache 的使用会激增,尤其是在预填充和解码同时计算的时候。比如,DeepSpeed-FastGen 切分提示词生成 tokens, 调度算法就会立即获取新请求,消除了等待时间。
2、并行优化
大模型过大,单卡上可能放不下。多卡多节点分布式并行处理,可以减少时延、增加利用率。并行算法受可用卡数量、互联带宽、访存层级、算力影响。主要方法有 张量并行 TP、数据并行 DP、FSDP、流水线并行。当然也可以采用混合并行。
数据并行 DP在多卡或多节点上复制相同的模型,每个独立使用单独的数据推理。计算完成后,结果或权重搜集到一张卡上产生最后的结果。但如果使用的硬件性能有明显差异,整个系统性能就可能成为瓶颈。
FSDP在多卡上切分模型权重、梯度、优化器。删除了重复的内存占用。在某一网络层执行之前,汇聚该层所有参数。使用时才临时加载这层所有参数,用完之后就删除。它不是切分算子,所以执行简单,与模型兼容。每次计算之前都会进行 all-gather 操作,引入了通信开销。推理时性能下降。另外,如果某个网络层要求的内存特别大,大到单卡放不下的时候,运行就有困难。训练的时候,FSDP切分了激活和权重,节省了内存。但推理的时候,没有梯度和激活的重计算,内存节省有限。那推理的时候i就取决于模型的大小。vLLM, DeepSpeed-FastGen, SGLang 是支持FSDP的。
张量并行,也就是模型并行或模型切分,主要是多卡切分 矩阵乘、Attention、全连接(矩阵乘)。每卡切到1个片段,后续合并中间结果。图示中把模型切到4卡上。比如矩阵乘 X*A=Y。A矩阵切分到多卡上,按行或列切分,集合通信算子汇聚结算结果,All-Reduce 或 All-Gather。每卡不需要保存所有权重,但有通信开销,切得不好也会降低效率。为了处理张量并行的通信瓶颈,尤其是TTFT时的性能下降,提出了新方法压缩通信数据,减少开销,提升推理性能。
流水线并行,把大模型不同网络层分配给不同卡。输入数据切分成 micro-batch , 遍历 网络层流水线。每卡一层。
3、压缩
量化: 主要是节省内存、增加推理速度。推理引擎需要选择合适的计算核,运行量化模型。KV Cache 量化 在长上下文中减少内存使用。
大模型推理引擎支持的数据类型
4、Caching
Prompt Caching : 大模型的提示词通常包含复用文本,比如系统信息、通用指令,在对话系统,编程助手、文档处理中多次出现。优化这种同样内容的技术就是 Prompt Caching, 存储了常用文本的 attention states 片段,只计算新的片段,因此可以加速推理。但由于位置编码的存在,每次片段需要出现在相同的位置上。PML(Prompt Markup Language)定义了提示词的结构,识别出可以重用的片段,分配唯一的位置 ID 。PML使用模块级位置和层级。改善 Prompt Caching 准确率的一个方法是 embedding 相似度。使用 余弦相似度计算 prompt embeddings, 这需要训练一个模型来对比这个相似度。
Prefix Caching 与 Prompt Caching 有点相似,但主要关注的是缓存多个请求间相同的 prefix 片段, 不是整个提示词。
KV Caching
5、Attention 优化
PagedAttention: 把 KV cache 切分成页表机制中的小片段,把逻辑块映射成物理块。
TokenAttention: 管理 token级别的 KV cache,使用 token 表格管理每个 token 的存储位置。
FlashAttenion: 把 Q, K, V切分成更小的 blocks。按 tile 计算 online softmax, 避免重复写内存。把矩阵乘和softmax 融合成一把计算,减少了计算核反复激活的开销。
6、采样优化
推测解码
7、结构化输出
非结构化输出和结构化输出
解码阶段的约束解码
详细内容参考原文: https://arxiv.org/pdf/2505.01658v1
更多免费AI功能 云片AI:https://y-p.cc/?f=tt
本文完,记得随手点个赞、收藏和转发三连,大家感兴趣的可以关注下,后续我再研究点新东西分享给大家~
关注后私信发送:DeepSeek,即可领取完整版资料
相关推荐
- 如何将PDF转换成TXT文档?介绍9种方法,轻松就能学会!
-
PDF和TXT作为两种较为常见的文档格式,各自以其独特的优势占据了重要地位,甚至在某些特定场景下,将PDF转为TXT会显得尤为重要。一、为什么选择将PDF转为TXT?提升阅读效率:TXT格式的纯文本...
- 怎么给电子文档加密?推荐用这四个方法,步骤简单,轻松学会!
-
最近朋友小李跟我吐槽,他熬夜整理的客户资料被同事误发到公司大群,差点酿成大祸。怎么给电子文档加密?其实,给电子文档加密就像给家门上锁一样简单。今天就手把手教你4种超实用的加密方法,小白也能3分钟搞定!...
- 怎么把Word文档转换成PDF?这3种方法很实用!
-
怎么把Word文档转换成PDF?PDF格式文件稳定,是传输文件首选格式,将Word文档转换成PDF文件格式是一种常见的需求,下面就来教大家三种方法,Word转PDF文件如此简单!01AdobeA...
- "解决Word文档只读权限问题:四种有效方法帮您编辑文件"
-
你是否遇到过想编辑一个Word文档,却被告知你没有权限修改任何内容?这意味着文件已被设定为“只读”状态,也就是说你只能读取文件,却无权做出任何修改。发生此类状况的原因有很多,我们首先会分析具体的情况,...
- 如何把doc文档转换为word文档?批量转换的四个方法
-
在日常生活和工作中,我们经常会遇到需要将doc文档转换为word文档的情况。无论是出于兼容性的考虑,还是为了使用某些特定的功能,掌握这一技能都显得尤为重要。本文将详细介绍几种常见且高效的方法,帮助大家...
- 四种简易方法:快速将常见文档转换为PDF格式
-
由于PDF文件具有良好的视觉阅读性和通用性,因此在日常工作和学习中得到了广泛的应用。然而,与一些常见的文档相比,PDF文件的排版更加稳定,不易被修改,且在不同设备上查看时文档格式不容易出错。因此,在许...
- Deepseek文档转换方法(deepseek投喂本地文档的方法)
-
Deepseek的火热程度大家都有目共睹,作为一种新的AI生产力工具,已在各个领域广泛应用。然而对大部分从没接触过此类智语言模型的新手来说,结合Deepseek进行生活、学习以及工作,还是有不小的挑战...
- 只要多加这样一句提示词,就能让DeepSeek帮你生成下载各种文档!
-
你提到的这个提示词技巧确实能极大提升效率!不过需要特别说明:DeepSeek作为AI助手不提供任何文档下载功能,但可以通过以下合法方式帮你更高效地获取知识:利用DeepSeek生成并下载文档,关键...
- 如何免费下载文档?原创力文档来啦!
-
在如今这个信息共享的时代,有许多渠道和方式可以让我们免费获取到所需的文档,只是很多人没有去深入探索和了解。免费下载文档可太实用了,既能给咱们省不少钱,还能让咱们自由自在的获取知识和信息。接下来我就把自...
- 用deepseek提问题,结果可以直接下载的excel文档
-
步骤:1.打开deepseek,录入你的要求,如请你帮我做一份会计日常工作安排表,内容按年、按月、按周的时间轴来写。2.写上提示词:以表格的方式呈现,用html格式输出,需要能直接下载excel文档的...
- AI大模型推理优化(附原文pdf文档和DeepSeek资料下载)
-
大模型推理引擎采用了多种定制化的优化技术,针对预填充和解码阶段进行优化。大多数引擎都使用了KVCaching避免解码阶段的重复计算,使用缓存的上下文,只计算最新一个token。引入连续批处理和...
- 网上下载的Word文档打不开?这样解决!
-
你是不是遇到过这种情况?下载的Word文件打不开,双击无响应?出现“文件已损坏”或“受保护的视图”提示?别担心!这篇文章适用于最新版Office365,教你4种方法快速修复W...
- 密封垫片的选择,PPT文档(可全套下载),建议机械人都看看
-
密封垫片选择难题,PPT详解,机械工程资料等你解锁!工业生产中,密封是至关重要的一环,而密封垫片,就是守护这道防线的无名英雄。可小小的垫片,选择起来却让人头秃!型号繁多,参数复杂,让人摸不着头脑。你...
- 教你怎么破解收费文档的技巧,很多文档复制都是要钱,别说下载了
-
现在很多网站或文档,复制都需要交会员费,或者就是让你付费,有没有什么其他的办法解决这一问题呢?办法其实是有的,只是细节问题很难处理了。那么今天就来提供三种本人在实际应用中用到的破解限制的功能。来看看具...
- 如何免费 下载360文库文档?(360文库付费下载)
-
想要免费下载360文库的文档,你可以试试下面这几种办法:一、用冰点下载器:冰点下载器这个工具不用登录,也不用积分,就能免费下载文库文档。你只要把要下载的文档链接粘贴到搜索框里,然后点下载就行。二、...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 如何绘制折线图 (52)
- javaabstract (48)
- 新浪微博头像 (53)
- grub4dos (66)
- s扫描器 (51)
- httpfile dll (48)
- ps实例教程 (55)
- taskmgr (51)
- s spline (61)
- vnc远程控制 (47)
- 数据丢失 (47)
- wbem (57)
- flac文件 (72)
- 网页制作基础教程 (53)
- 镜像文件刻录 (61)
- ug5 0软件免费下载 (78)
- debian下载 (53)
- ubuntu10 04 (60)
- web qq登录 (59)
- 笔记本变成无线路由 (52)
- flash player 11 4 (50)
- 右键菜单清理 (78)
- cuteftp 注册码 (57)
- ospf协议 (53)
- ms17 010 下载 (60)