百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

AI大模型推理优化(附原文pdf文档和DeepSeek资料下载)

cac55 2025-06-30 14:52 3 浏览 0 评论

大模型推理引擎采用了多种定制化的优化技术,针对预填充和解码阶段进行优化。大多数引擎都使用了 KV Caching 避免解码阶段的重复计算,使用缓存的上下文,只计算最新一个 token。引入连续批处理和混合批处理,进一步优化解码阶段性能;对多个请求的分组预填充、分组解码可以更好利用GPU资源。解码阶段使用算子融合和硬件特有的加速计算核,减少每个token生成的开销。算子融合, 比如, 将 LayerNorm, 矩阵乘, 激活函数 融合成一个算子, 减少访存和 Kernel Launch 的开销。量化是另一个主要的优化方法。用 8比特或4比特整型,替换16比特或32比特浮点类型,对内存使用和带宽需求降低, 尤其是在解码阶段。量化模型可以缓存更多的 tokens , 处理更多的并发请求,提升计算速度。

通常 caching, batching, 算子优化, 量化是优化大模型推理服务的 token 吞吐、减少时延的基础方法。在推理引擎中支持这些技术对交付高质量大模型方案非常关键。

Transformer Decoder

注意力机制模块

大模型推理流程

大模型推理和服务流程

大模型推理引擎对比

大模型推理引擎后端硬件支持

大模型推理引擎使用的优化方法

1、Batching 优化

推理请求把多个输入请求分组打包同时处理,提升硬件利用率和吞吐率。除了批大小外,调度方法也会显著影响推理性能。static batching 处理固定数量的请求,新请求需要等待当前批请求完成后,才能开始推理,增加了推理时延。dynamic batching, continuous batching 实时自适应批请求,可以减少推理时延、提升效率。

Dynamic Batching, 在新请求进来的时候,和现有批进行合并或添加到正在处理的进程中,优化资源利用率。实现动态批处理需要优化几个参数,最大等待时间最小批大小最大批大小。可能会由于动态改变批大小而引入开销,请求的提示词如果变动很大,或输出 token 长度变动很大,性能会下降。

Continuous Batching 与 Dynamic Batching 相似,但新请求加入的时候不会中断正在处理的批样本,减少了推理时延。请求会连续地插入,最大化GPU和显存利用率。Continuous Batching 要求复杂的调度机制,新请求加入时不中断现有处理流程。高效的 KV Cache 管理也非常关键,经常和 PagedAttention 一起使用。推理引擎 llama.cpp, DeepSpeed-FastGen, vLLM 都使用了 Continuous Batching, 该方案来源于 Orca。

Nano-Batching 由 NanoFlow 引入, 对算子级别切分,单卡上并行 计算、访存、网络通信操作, 最大化利用资源和提高吞吐率。算子粒度分为 attentionKV 生成GEMM多卡同步集合通信。动态调整 nano-batch 大小,优化每类资源,调度算法基于硬件资源和算子优化,合并了拓扑排序和贪婪搜索。nano-batching 并发处理可以提升资源利用率,增加了吞吐率,但调度复杂,会导致额外的开销,尤其是多卡处理的时候。

Chunked-prefill 在多卡环境中,内存约束的解码过程存在idle 状态,处理长提示词的时候,可能会增加时延,延误了较短的提示词请求。Chunked-Prefill 把长提示词拆分成多个片段增量式处理。第一个片段开始解码的同时,后续的片段也可以进行预填充,两个截断可以并发计算,增强了资源利用率。Chunked-Prefill 也引入了调度的复杂度,需要进行更细粒度的批管理。KV Cache 的使用会激增,尤其是在预填充和解码同时计算的时候。比如,DeepSpeed-FastGen 切分提示词生成 tokens, 调度算法就会立即获取新请求,消除了等待时间。

2、并行优化

大模型过大,单卡上可能放不下。多卡多节点分布式并行处理,可以减少时延、增加利用率。并行算法受可用卡数量互联带宽访存层级算力影响。主要方法有 张量并行 TP数据并行 DPFSDP流水线并行。当然也可以采用混合并行。

数据并行 DP在多卡或多节点上复制相同的模型,每个独立使用单独的数据推理。计算完成后,结果或权重搜集到一张卡上产生最后的结果。但如果使用的硬件性能有明显差异,整个系统性能就可能成为瓶颈。

FSDP在多卡上切分模型权重、梯度、优化器。删除了重复的内存占用。在某一网络层执行之前,汇聚该层所有参数。使用时才临时加载这层所有参数,用完之后就删除。它不是切分算子,所以执行简单,与模型兼容。每次计算之前都会进行 all-gather 操作,引入了通信开销。推理时性能下降。另外,如果某个网络层要求的内存特别大,大到单卡放不下的时候,运行就有困难。训练的时候,FSDP切分了激活和权重,节省了内存。但推理的时候,没有梯度和激活的重计算,内存节省有限。那推理的时候i就取决于模型的大小。vLLM, DeepSpeed-FastGen, SGLang 是支持FSDP的。

张量并行,也就是模型并行或模型切分,主要是多卡切分 矩阵乘、Attention、全连接(矩阵乘)。每卡切到1个片段,后续合并中间结果。图示中把模型切到4卡上。比如矩阵乘 X*A=Y。A矩阵切分到多卡上,按行或列切分,集合通信算子汇聚结算结果,All-Reduce 或 All-Gather。每卡不需要保存所有权重,但有通信开销,切得不好也会降低效率。为了处理张量并行的通信瓶颈,尤其是TTFT时的性能下降,提出了新方法压缩通信数据,减少开销,提升推理性能。

流水线并行,把大模型不同网络层分配给不同卡。输入数据切分成 micro-batch , 遍历 网络层流水线。每卡一层。

3、压缩

量化: 主要是节省内存、增加推理速度。推理引擎需要选择合适的计算核,运行量化模型。KV Cache 量化 在长上下文中减少内存使用。

大模型推理引擎支持的数据类型

4、Caching

Prompt Caching : 大模型的提示词通常包含复用文本,比如系统信息、通用指令,在对话系统,编程助手、文档处理中多次出现。优化这种同样内容的技术就是 Prompt Caching, 存储了常用文本的 attention states 片段,只计算新的片段,因此可以加速推理。但由于位置编码的存在,每次片段需要出现在相同的位置上。PML(Prompt Markup Language)定义了提示词的结构,识别出可以重用的片段,分配唯一的位置 ID 。PML使用模块级位置和层级。改善 Prompt Caching 准确率的一个方法是 embedding 相似度。使用 余弦相似度计算 prompt embeddings, 这需要训练一个模型来对比这个相似度。

Prefix Caching 与 Prompt Caching 有点相似,但主要关注的是缓存多个请求间相同的 prefix 片段, 不是整个提示词。

KV Caching

5、Attention 优化

PagedAttention: 把 KV cache 切分成页表机制中的小片段,把逻辑块映射成物理块。

TokenAttention: 管理 token级别的 KV cache,使用 token 表格管理每个 token 的存储位置。

FlashAttenion: 把 Q, K, V切分成更小的 blocks。按 tile 计算 online softmax, 避免重复写内存。把矩阵乘和softmax 融合成一把计算,减少了计算核反复激活的开销。

6、采样优化

推测解码

7、结构化输出

非结构化输出和结构化输出

解码阶段的约束解码

详细内容参考原文: https://arxiv.org/pdf/2505.01658v1

更多免费AI功能 云片AI:https://y-p.cc/?f=tt

本文完,记得随手点个赞、收藏和转发三连,大家感兴趣的可以关注下,后续我再研究点新东西分享给大家~

关注私信发送DeepSeek即可领取完整版资料

相关推荐

如何将PDF转换成TXT文档?介绍9种方法,轻松就能学会!

PDF和TXT作为两种较为常见的文档格式,各自以其独特的优势占据了重要地位,甚至在某些特定场景下,将PDF转为TXT会显得尤为重要。一、为什么选择将PDF转为TXT?提升阅读效率:TXT格式的纯文本...

怎么给电子文档加密?推荐用这四个方法,步骤简单,轻松学会!

最近朋友小李跟我吐槽,他熬夜整理的客户资料被同事误发到公司大群,差点酿成大祸。怎么给电子文档加密?其实,给电子文档加密就像给家门上锁一样简单。今天就手把手教你4种超实用的加密方法,小白也能3分钟搞定!...

怎么把Word文档转换成PDF?这3种方法很实用!

怎么把Word文档转换成PDF?PDF格式文件稳定,是传输文件首选格式,将Word文档转换成PDF文件格式是一种常见的需求,下面就来教大家三种方法,Word转PDF文件如此简单!01AdobeA...

"解决Word文档只读权限问题:四种有效方法帮您编辑文件"

你是否遇到过想编辑一个Word文档,却被告知你没有权限修改任何内容?这意味着文件已被设定为“只读”状态,也就是说你只能读取文件,却无权做出任何修改。发生此类状况的原因有很多,我们首先会分析具体的情况,...

如何把doc文档转换为word文档?批量转换的四个方法

在日常生活和工作中,我们经常会遇到需要将doc文档转换为word文档的情况。无论是出于兼容性的考虑,还是为了使用某些特定的功能,掌握这一技能都显得尤为重要。本文将详细介绍几种常见且高效的方法,帮助大家...

四种简易方法:快速将常见文档转换为PDF格式

由于PDF文件具有良好的视觉阅读性和通用性,因此在日常工作和学习中得到了广泛的应用。然而,与一些常见的文档相比,PDF文件的排版更加稳定,不易被修改,且在不同设备上查看时文档格式不容易出错。因此,在许...

Deepseek文档转换方法(deepseek投喂本地文档的方法)

Deepseek的火热程度大家都有目共睹,作为一种新的AI生产力工具,已在各个领域广泛应用。然而对大部分从没接触过此类智语言模型的新手来说,结合Deepseek进行生活、学习以及工作,还是有不小的挑战...

只要多加这样一句提示词,就能让DeepSeek帮你生成下载各种文档!

你提到的这个提示词技巧确实能极大提升效率!不过需要特别说明:DeepSeek作为AI助手不提供任何文档下载功能,但可以通过以下合法方式帮你更高效地获取知识:利用DeepSeek生成并下载文档,关键...

如何免费下载文档?原创力文档来啦!

在如今这个信息共享的时代,有许多渠道和方式可以让我们免费获取到所需的文档,只是很多人没有去深入探索和了解。免费下载文档可太实用了,既能给咱们省不少钱,还能让咱们自由自在的获取知识和信息。接下来我就把自...

用deepseek提问题,结果可以直接下载的excel文档

步骤:1.打开deepseek,录入你的要求,如请你帮我做一份会计日常工作安排表,内容按年、按月、按周的时间轴来写。2.写上提示词:以表格的方式呈现,用html格式输出,需要能直接下载excel文档的...

AI大模型推理优化(附原文pdf文档和DeepSeek资料下载)

大模型推理引擎采用了多种定制化的优化技术,针对预填充和解码阶段进行优化。大多数引擎都使用了KVCaching避免解码阶段的重复计算,使用缓存的上下文,只计算最新一个token。引入连续批处理和...

网上下载的Word文档打不开?这样解决!

你是不是遇到过这种情况?下载的Word文件打不开,双击无响应?出现“文件已损坏”或“受保护的视图”提示?别担心!这篇文章适用于最新版Office365,教你4种方法快速修复W...

密封垫片的选择,PPT文档(可全套下载),建议机械人都看看

密封垫片选择难题,PPT详解,机械工程资料等你解锁!工业生产中,密封是至关重要的一环,而密封垫片,就是守护这道防线的无名英雄。可小小的垫片,选择起来却让人头秃!型号繁多,参数复杂,让人摸不着头脑。你...

教你怎么破解收费文档的技巧,很多文档复制都是要钱,别说下载了

现在很多网站或文档,复制都需要交会员费,或者就是让你付费,有没有什么其他的办法解决这一问题呢?办法其实是有的,只是细节问题很难处理了。那么今天就来提供三种本人在实际应用中用到的破解限制的功能。来看看具...

如何免费 下载360文库文档?(360文库付费下载)

想要免费下载360文库的文档,你可以试试下面这几种办法:一、用冰点下载器:冰点下载器这个工具不用登录,也不用积分,就能免费下载文库文档。你只要把要下载的文档链接粘贴到搜索框里,然后点下载就行。二、...

取消回复欢迎 发表评论: