[LLM推理优化] 100+篇: 大模型推理各方向新发展整理

共 1113字，需浏览 3分钟

·

2024-05-30 20:10

作者丨DefTruth

来源丨https://zhuanlan.zhihu.com/p/693680304

编辑丨GiantPandaCV

0x01 前言

从事大模型推理的工作有段时间了，业余有空的时候也会关注一下LLM近期发展的方向，以及一些新的paper。说实话，这些论文没法一一看完，大部分都只是看了摘要和结论，了解一下相关的技术对自己当前所做的业务是否有助益。整理和归纳是自己长期以来的习惯，对于LLM推理的发展也是如此，虽然无法一一深入到所有细节，但至少让自己保持一下对业界发展的敏感度应该还是可以的。

0x02 目录

半年多时间，大概收录了100多篇LLM推理相关的论文（paper with codes），既包括了常用的Attention优化、权重量化、KV Cache优化等技术，也涵盖了一些新方向，比如Early Exit、Long Context/Prompt KV Cache优化、Parallel Decoding/Sampling等。

0x03 内容

整理的内容都放在了GitHub:

https://github.com/DefTruth/Awesome-LLM-Inference

这里不打算重复粘贴了，感兴趣的欢迎来GitHub阅读。

0x04 总结

TIPS: 欢迎大家提交PR增加LLM推理最新动向~

- The End -

GiantPandaCV

长按二维码关注我们

本公众号专注：

1. 技术分享；

2. 学术交流；

3. 资料共享。

欢迎关注我们，一起成长！

浏览 138

2点赞

收藏

分享

举报

评论

图片

表情

大模型LLM论文整理

LLMs 论文研读社作者：杨夕介绍：该仓库主要记录 LLMs 算法工程师相关的顶会论文研读笔记（多模态、PEFT、小样本QA问答、RAG、LMMs可解释性、Agents、CoT）LLMs 九层妖塔地址：https://github.com/km1994/LLMsNineStoryDemonTowe

大模型LLM论文整理

LLMs 论文研读社作者：杨夕介绍：该仓库主要记录 LLMs 算法工程师相关的顶会论文研读笔记（多模态、PEFT、小样本QA问答、RAG、LMMs可解释性、Agents、CoT）LLMs 九层妖塔地址：https://github.com/km1994/LLMsNineStoryDemonTowe

K8S, AI 大模型推理优化的新选择!

▼ 最近直播超级多，预约保你有收获今晚直播：《大模型Agent应用落地实战》 — 1 — AI 大模型训练和推理 Docker 容器和 Kubernetes 已经成为越来越多 AI 应用首选的运行环境和平台。一方面，Kubernetes 帮助用户...

fastllm高性能大模型推理库

fastllm 是纯 C++ 实现的全平台 llm 加速库。支持 Python 调用，chatglm

fastllm高性能大模型推理库

fastllm是纯C++实现的全平台llm加速库。支持Python调用，chatglm-6B级模型单卡可达10000+token/s，支持glm、llama、moss基座，手机端流畅运行。功能概述纯C

由臺灣林白出版社發行人林佛兒於1984年11月創刊，刊載了大批日本和歐美的短篇推理佳作，也培養了衆多

2点赞

收藏

分享

举报