fastllm高性能大模型推理库

联合创作 · 2023-09-25 23:52

fastllm 是纯 C++ 实现的全平台 llm 加速库。支持 Python 调用，chatglm-6B 级模型单卡可达 10000+token / s，支持 glm、llama、moss 基座，手机端流畅运行。

功能概述

纯 C++ 实现，便于跨平台移植，可以在安卓上直接编译
ARM平台支持NEON指令集加速，X86平台支持AVX指令集加速，NVIDIA平台支持CUDA加速，各个平台速度都很快就是了
支持浮点模型（FP32), 半精度模型(FP16), 量化模型(INT8, INT4) 加速
支持Batch速度优化
支持流式输出，很方便实现打字机效果
支持并发计算时动态拼Batch
支持python调用
前后端分离设计，便于支持新的计算设备
目前支持ChatGLM模型，各种LLAMA模型(ALPACA, VICUNA等)，BAICHUAN模型，MOSS模型

推理速度

6B级int4模型单4090延迟最低约5.5ms

6B级fp16模型单4090最大吞吐量超过10000 token / s

6B级int4模型在骁龙865上速度大约为4~5 token / s

详细测试数据点这里

浏览 10

点赞

收藏

分享

举报

评论

图片

表情

fastllm高性能大模型推理库

fastllm是纯C++实现的全平台llm加速库。支持Python调用，chatglm-6B级模型单卡可达10000+token/s，支持glm、llama、moss基座，手机端流畅运行。功能概述纯C

大模型部署框架 FastLLM 实现细节解析

大模型的模型压缩与有效推理综述

1 介绍本文对大型语言模型的压缩和效率推理进行了综述。大型语言模型基于Transformer架构，具有强大的性能，但也带来了巨大的内存和计算成本。本文从算法角度对大型语言模型的压缩和效率推理方法进行了分类，包括量化、剪枝、知识蒸馏、紧凑架构设计和动态网络。大型语言模型有两个显著特点：（1

Go 实现的 llama 模型调试与推理库

开源你我他

[LLM推理优化] 100+篇: 大模型推理各方向新发展整理

OpenPPL高性能深度学习推理平台

OpenPPL 是基于自研高性能算子库的推理引擎，拥有极致调优的性能；提供云原生环境下的 AI 模

大模型推理再提速！英伟达推出TensorRT-LLM，专为提升大模型推理速度优化的全新框架

OpenPPL高性能深度学习推理平台

OpenPPL是基于自研高性能算子库的推理引擎，拥有极致调优的性能；提供云原生环境下的AI模型多后端部署能力，支持OpenMMLab等深度学习模型的高效部署。架构如下：高性能设计微架构友好的任务/数据

wast高性能 Java 库

wast 是一个轻量级且高性能 java 语言开发框架和工具包，集成了最快的json库之一和最快的y

commons.json高性能JSON库

commons.json是Java的序列化与反序列化JSON格式的类库，commons.json非常轻量，且性能比Jackson和Gson好，并且支持缓存。示例：JavaObjecttoJSON:St

点赞

收藏

分享

举报