GPT4AllGPT4 平替版本

联合创作 · 2023-09-25 23:10

GPT4All 是基于 LLaMa 的 ~800k GPT-3.5-Turbo Generations 训练出来的助手式大型语言模型,这个模型接受了大量干净的助手数据的训练,包括代码、故事和对话,可作为 GPT4 的平替。

在 M1 Mac 上运行的示例:

自己试试

  1.  Direct Link or [Torrent-Magnet] 下载 gpt4all-lora-quantized.bin 文件。
  2. 克隆此仓库,导航至 chat ,并将下载的文件放在那里。
  3. 为操作系统运行适当的命令:
    • M1 Mac/OSX: cd chat;./gpt4all-lora-quantized-OSX-m1
    • Linux: cd chat;./gpt4all-lora-quantized-linux-x86
    • Windows (PowerShell): cd chat;./gpt4all-lora-quantized-win64.exe
    • Intel Mac/OSX: cd chat;./gpt4all-lora-quantized-OSX-intel

注意:GPU 上的完整模型(需要 16GB 显存)在定性评估中表现更好。

Python客户端

CPU 接口

要使用带有 CPU 接口的 python 客户端运行,首先使用安装nomic 客户端 ,然后可以使用以下脚本与 GPT4All 进行交互:pip install nomic

from nomic.gpt4all import GPT4All m = GPT4All() m.open() m.prompt('write me a story about a lonely computer')

显卡接口

有两种方法可以在 GPU 上启动和运行此模型。此处的设置比 CPU 模型稍微复杂一些。

  1. 克隆 nomic 客户端 repo 并在主目录中运行 pip install .[GPT4All] 
  2. 运行 pip install nomic 并从此处构建的 wheels 安装额外的 deps

完成后,可以使用如下脚本在 GPU 上运行模型:

from nomic.gpt4all import GPT4AllGPU m = GPT4AllGPU(LLAMA_PATH) config = {'num_beams': 2, 'min_new_tokens': 10, 'max_length': 100, 'repetition_penalty': 2.0} out = m.generate('write me a story about a lonely computer', config) print(out)

其中 LLAMA_PATH 是 Huggingface Automodel 兼容的 LLAMA 模型的路径,Nomic 目前无法分发此文件。

可以在配置中传递任何 huggingface 生成配置参数。

路线图

短期

  • (进行中)基于 GPTJ 训练 GPT4All 模型以缓解 llama 分布问题。
  • (进行中)为此模型创建改进的 CPU 和 GPU 接口。
  • (未开始)集成 llama.cpp 绑定
  • (未开始)为模型创建一个良好的对话聊天界面。
  • (未开始)允许用户选择加入并提交他们的聊天记录以进行后续培训

中期

  • (未开始)将 GPT4All 与Atlas集成以允许文档检索。
    • 被基于 GPTJ 的 GPT4All 屏蔽
  • (未开始)将 GPT4All 与 Langchain 集成。
  • (进行中)构建简单的自定义训练脚本以允许用户微调模型。

长期

  • (未开始)允许任何人使用 Atlas 为后续 GPT4All 版本整理训练数据。
  • (进行中)使 AI 民主化。

再现性

训练有素的 LoRa 权重:

原始数据:

浏览 15
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报