Falcon-40B因果解码器大模型

联合创作 · 2023-09-25 23:42

Falcon-40B 是 400 亿参数的因果解码器模型,它在 RefinedWeb 的 1000B token 上进行训练,并使用精选数据集增强。它在 Huggingface 的 OpenLLM 排行榜上排首位,其性能优于 LLaMA、MPT、RedPajama 和 StableLM 等。

Falcon-40B 使用自定义工具构建,包含一个独特的数据管道,该管道从公开网络中提取训练数据。

Falcon 从公网上抓取内容构建好 Falcon 的初始预训练数据集后,再使用 CommonCrawl 转储,进行大量过滤(包括删除机器生成的文本和成人内容),并消除重复数据,最终得到一个由近 5 万亿个 token 组成的庞大预训练数据集。

Falcon 一共包含 4 个版本:

  • Falcon-40B:在1万亿token上进行训练,并使用精选语料库进行了增强;主要接受英语、德语、西班牙语、法语的训练,不会中文。
  • Falcon-40B-Instruct:在Baize上进行了微调,使用FlashAttention和多查询对推理架构进行了优化,是一个即用型聊天模型。
  • Falcon-7B:参数70亿,在1.5万亿token上进行了训练,作为一个原始的预训练模型,还需要用户针对大多数用例进一步微调。
  • Falcon-RW-7B:参数70亿,在3500亿token上进行训练,该模型旨在用作“研究神器”,单独研究各种在网络数据进行训练的影响。
浏览 9
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报