国内外30个热门大模型架构的信息汇总
共 818字,需浏览 2分钟
·
2024-05-08 08:00
LLM 架构配置
注意
1.RoPE指的是RoPE家族的位置编码,经过了XPos,线性内插,NTK-Aware Scaled RoPE和dynamic NTK等若干次进化,故上表中提及的RoPE并不一定是完全相同的位置编码方法。
2.模型类型中若含有MoE,表示该系列的模型中存在使用MoE架构的模型,而并非是所有模型使用MoE架构。
3.所有的模型架构配置信息来源于 Hugging Face,Model Scope 以及 GitHub 的具体实现,具体链接已在表格中提供,于2024年4月收集,若不符合相关论文中的描述,请读者谅解。
4.即使某些LLM使用了相同的配置信息,其内部架构也可能不同。
统计图表
模型架构
注意力机制
位置编码
激活函数
归一化
😘帅哥美女们,请高抬贵手,你们的点赞、收藏和关注是我更新的最大动力!😘
其他资源
AGIDreamFactory 项目:https://github.com/mannaandpoem/AGIDreamFactory
知识星球:https://articles.zsxq.com/id_0dwcztn0ceri.html
参考
1. Models - Hugging Face
2. 模型库首页 · 魔搭社区 (modelscope.cn)
3. huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. (github.com)