K8S, AI 大模型推理优化的新选择!-轻识

▼ 最近直播超级多，预约保你有收获

今晚直播： 《大模型Agent应用落地实战 》

— 1 —

AI 大模型训练和推理

Docker 容器和 Kubernetes 已经成为越来越多 AI 应用首选的运行环境和平台。一方面，Kubernetes 帮助用户标准化异构资源和运行时环境、简化运维流程；另一方面，AI 这种重度依赖 GPU 的场景可以利用 K8S 的弹性优势节省资源成本。在 AIGC/大模型的这波浪潮下，以 Kubernetes 上运行 AI 应用将变成一种事实标准。

大模型训练和推理是企业重要应用，但企业往往面临着 GPU 管理复杂、资源利用率低，以及全生命周期管理中工程效率低下等挑战。通过创建 kubernetes 集群，使用 KServe + vLLM 部署推理服务。适用于以下场景：

大模型训练：基于 Kubernetes 集群微调开源大模型，可以屏蔽底层资源和环境的复杂度，快速配置训练数据、提交训练任务，并自动运行和保存训练结果。
大模型推理：基于 Kubernetes 集群部署推理服务，可以屏蔽底层资源和环境的复杂度，快速将微调后的大模型部署成推理服务，将大模型应用到实际业务场景中。
GPU 共享推理：支持 GPU 共享调度能力和显存隔离能力，可将多个推理服务部署在同一块 GPU 卡上，提高 GPU 的利用率的同时，也能保证推理服务的稳定运行。

— 2 —

vLLM 大模型推理加速器

即使在高端 GPU 上，提供 LLM 模型的速度也可能出奇的慢，平均推理速度大约5秒，vLLM 是一种快速且易于使用的 LLM 推理引擎。它可以实现比 Huggingface Transformer 网络结构高 10 倍甚至至 20 倍的吞吐量。它支持连续批处理以提高吞吐量和 GPU 利用率， vLLM 支持分页注意力以解决内存瓶颈，在自回归解码过程中，所有注意力键值张量（KV 缓存）都保留在 GPU 内存中以生成下一个令牌。