ExllamaLlama HF 转换器重写
Exllama 是对 Llama 的 HF 转换器实现进行更高效的内存重写,以用于量化权重。
- 设计用于量化权重
- 快速且节省内存的推理(不仅仅是注意力)
- 跨多个设备映射
- 内置(多)LoRA 支持
- funky 采样函数的配套库
注意,该项目处于概念验证&预览阶段,可能发生大型变更。
硬件/软件要求
作者在 RTX 4090 和 RTX 3070-Ti 上进行开发。两种卡都支持 CUDA 内核,但可能与旧卡不兼容。
作者没有更低的显卡,所以不知道老显卡行不行。
另外,不知道这是否适用于 Windows/WSL。
依赖关系
此列表可能不完整:
-
torch
使用 cu118 在 2.1.0(nightly)上进行测试,也可能适用于较旧的 CUDA 版本 -
safetensors
0.3.1 sentencepiece
ninja
限制
截至目前(正在处理):
- 不支持没有 groupsize 的 v1 模型
- 遇到过具有非标准布局和数据类型的模型(例如 float32 嵌入表)。确保支持所有可能的排列需要一段时间。
评论