彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态
数据派THU
共 6836字,需浏览 14分钟
·
2024-07-26 17:00
来源:机器之心 本文约3200字,建议阅读5分钟 本文介绍了一种全新的大语言模型(LLM)架构有望代替至今在 AI 领域如日中天的 Transformer。
-
在论文上线后,作者公开了代码与 jax 以供人们训练和测试: https://github.com/test-time-training/ttt-lm-jax -
还有 PyTorch 推理代码: https://github.com/test-time-training/ttt-lm-pytorch
-
2k 上下文,TTT-Linear (M)、Mamba 和 Transformer 的性能相当,因为线条大多重叠。在 FLOP 预算较大的情况下,TTT-MLP (M) 的性能稍差。尽管 TTT-MLP 在各种模型大小下都比 TTT-Linear 有更好的困惑度,但 FLOPs 的额外成本抵消了这一优势。 -
8k 上下文,TTT-Linear (M) 和 TTT-MLP (M) 的表现都明显优于 Mamba,这与 2k 上下文中的观察结果截然不同。即使是使用 Transformer 主干网络的 TTT-MLP (T) 在 1.3B 左右也比 Mamba 略胜一筹。一个显著现象是,随着上下文长度的增加,TTT 层相对于 Mamba 层的优势也在扩大。 -
上下文长度达到 8k,Transformer 在每种模型尺寸下的困惑度依旧表现不错,但由于 FLOPs 成本的原因,已不具竞争力。
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU
评论
GPT-2基于 transformer 的大型语言模型
GPT-2是一种基于transformer 的大型语言模型,具有15亿个参数,在800万网页数据集上进行训练。它是论文《语言模型是无人监督的多任务学习者》(LanguageModelsareUnsup
GPT-2基于 transformer 的大型语言模型
0
GPT-2基于 transformer 的大型语言模型
GPT-2 是一种基于 transformer 的大型语言模型,具有 15 亿个参数,在 800 万
GPT-2基于 transformer 的大型语言模型
0
AvoutClojure 分布式状态模型
Avout为Clojure的内存state模型带来分布式应用发布,通过提供一个分布式实现的 Clojure'sMultiversionConcurrencyControl(MVCC)STM,相当于分布
AvoutClojure 分布式状态模型
0
Core ML ToolsCore ML 模型工具包
CoreML工具包含用于CoreML模型转换、编辑和验证的支持工具。使用coremltools可将机器学习模型从第三方库转换为CoreML格式,包含用于从培训库转换模型的支持工具,例如:TensorF
Core ML ToolsCore ML 模型工具包
0
Core ML ToolsCore ML 模型工具包
Core ML 工具包含用于 Core ML 模型转换、编辑和验证的支持工具。使用 coremlto
Core ML ToolsCore ML 模型工具包
0