彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态
数据派THU
共 6836字,需浏览 14分钟
·
2024-07-26 17:00
来源:机器之心 本文约3200字,建议阅读5分钟 本文介绍了一种全新的大语言模型(LLM)架构有望代替至今在 AI 领域如日中天的 Transformer。
-
在论文上线后,作者公开了代码与 jax 以供人们训练和测试: https://github.com/test-time-training/ttt-lm-jax -
还有 PyTorch 推理代码: https://github.com/test-time-training/ttt-lm-pytorch
-
2k 上下文,TTT-Linear (M)、Mamba 和 Transformer 的性能相当,因为线条大多重叠。在 FLOP 预算较大的情况下,TTT-MLP (M) 的性能稍差。尽管 TTT-MLP 在各种模型大小下都比 TTT-Linear 有更好的困惑度,但 FLOPs 的额外成本抵消了这一优势。 -
8k 上下文,TTT-Linear (M) 和 TTT-MLP (M) 的表现都明显优于 Mamba,这与 2k 上下文中的观察结果截然不同。即使是使用 Transformer 主干网络的 TTT-MLP (T) 在 1.3B 左右也比 Mamba 略胜一筹。一个显著现象是,随着上下文长度的增加,TTT 层相对于 Mamba 层的优势也在扩大。 -
上下文长度达到 8k,Transformer 在每种模型尺寸下的困惑度依旧表现不错,但由于 FLOPs 成本的原因,已不具竞争力。
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU
评论