LongLLaMA加强版 LLaMA 模型
LongLLaMA 是一个能够处理长上下文的大型语言模型,能够处理 256k tokens 甚至更多的长上下文。它基于 OpenLLaMA 并使用 Focused Transformer (FoT) 方法进行微调。
开发团队在 Apache 2.0 许可下发布了 LongLLaMA 模型的较小 3B 基本变体(未调整指令),并在 Hugging Face 上支持更长上下文的推理代码。模型权重可以作为现有实现中 LLaMA 的直接替代品(对于最多 2048 个 tokens 的短上下文)。此外,还提供评估结果以及与原始 OpenLLaMA 模型的比较。请继续关注进一步的更新。
LongLLaMA 具有三层用于上下文扩展。至关重要的是,LongLLaMA 能够推断的上下文长度远远超过训练时的长度:8k。例如,在密钥检索任务中,它可以处理长度为 256k 的输入。
LongLLaMA-3B | LongLLaMA-3Bv1.1 | LongLLaMA-7B (coming soon) |
LongLLaMA-13B (coming soon) |
|
---|---|---|---|---|
Source model | OpenLLaMA-3B | OpenLLaMA-3Bv2 | - | - |
Source model tokens | 1T | 1 T | - | - |
Fine-tuning tokens | 10B | 5B | - | - |
Memory layers | 6, 12, 18 | 6, 12, 18 | - | - |
评论