ExllamaLlama HF 转换器重写

联合创作 · 2023-09-25 23:39

Exllama 是对 Llama 的 HF 转换器实现进行更高效的内存重写,以用于量化权重。

  • 设计用于量化权重
  • 快速且节省内存的推理(不仅仅是注意力)
  • 跨多个设备映射
  • 内置(多)LoRA 支持
  • funky 采样函数的配套库

注意,该项目处于概念验证&预览阶段,可能发生大型变更。

硬件/软件要求

作者在 RTX 4090 和 RTX 3070-Ti 上进行开发。两种卡都支持 CUDA 内核,但可能与旧卡不兼容。

作者没有更低的显卡,所以不知道老显卡行不行。

另外,不知道这是否适用于 Windows/WSL。

依赖关系

此列表可能不完整:

  • torch使用 cu118 在 2.1.0(nightly)上进行测试,也可能适用于较旧的 CUDA 版本
  • safetensors0.3.1
  • sentencepiece
  • ninja

限制

截至目前(正在处理):

  • 不支持没有 groupsize 的 v1 模型
  • 遇到过具有非标准布局和数据类型的模型(例如 float32 嵌入表)。确保支持所有可能的排列需要一段时间。
浏览 1
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报