国内外30个热门大模型架构的信息汇总

DayNightStudy

共 818字,需浏览 2分钟

 ·

2024-05-08 08:00

LLM 架构配置

注意

1.RoPE指的是RoPE家族的位置编码,经过了XPos,线性内插,NTK-Aware Scaled RoPEdynamic NTK等若干次进化,故上表中提及的RoPE并不一定是完全相同的位置编码方法。

2.模型类型中若含有MoE,表示该系列的模型中存在使用MoE架构的模型,而并非是所有模型使用MoE架构。

3.所有的模型架构配置信息来源于 Hugging FaceModel Scope 以及 GitHub 的具体实现,具体链接已在表格中提供,20244月收集,若不符合相关论文中的描述,请读者谅解。

4.即使某些LLM使用了相同的配置信息,其内部架构也可能不同。

统计图表

模型架构

注意力机制

位置编码

激活函数

归一化

😘帅哥美女们,请高抬贵手,你们的点赞、收藏和关注是我更新的最大动力!😘

其他资源

AGIDreamFactory 项目:https://github.com/mannaandpoem/AGIDreamFactory

知识星球:https://articles.zsxq.com/id_0dwcztn0ceri.html

参考

1. Models - Hugging Face

2. 模型库首页 · 魔搭社区 (modelscope.cn)

3. huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. (github.com)

浏览 17
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报