小模型狂飙!6家巨头争相发布小模型,Andrej Karpathy:大语言模型的尺寸竞争正在倒退...
共 6225字,需浏览 13分钟
·
2024-07-29 17:00
作者 | 21#
小模型(SLM),是相对于大语言模型(LLM)而言的,它们一般来说具有较少的参数和较低的计算资源需求。
大语言模型的尺寸竞争正在倒退... 我打赌我们会看到非常非常小的模型“思考”得非常好且可靠。很可能存在一个GPT-2参数的设置,大多数人会认为GPT-2是“聪明的”。当前模型如此大的原因是因为我们在训练期间仍然非常浪费——我们要求它们记住互联网,令人惊讶的是,它们确实做到了,并且可以例如背诵常见数字的SHA哈希值,或回忆非常深奥的事实。(实际上,大语言模型在记忆方面非常出色,质量上远胜于人类,有时只需要一次更新就能记住大量细节,并且长时间记住)。但想象一下,如果你要在闭卷考试中背诵互联网的任意段落,给出前几个词。这是当今模型的标准(预)训练目标。更难的是,因为思考的演示在训练数据中是与知识“纠缠”的。 因此,模型必须先变大,然后才能变小,因为我们需要它们(自动化)的帮助将训练数据重构和模塑成理想的、合成的格式。 这是一个改进的阶梯——一个模型帮助生成下一个模型的训练数据,直到我们获得“完美的训练集”。当你在这个训练集上训练GPT-2时,它将是一个非常强大且聪明的模型,以今天的标准来看。也许MMLU会低一些,因为它不会完美记住所有的化学知识。也许它需要偶尔查找一些东西以确保准确。
-
7月18日,OpenAI 发布了 GPT-4o mini:在MMLU(文本智能和推理基准测试)中得分为82.0% -
7月18日,Apple发布了 DCLM 7B :真正的开源,性能碾压 Mistral 7B -
7月18日,Mistral & Nvidia 发布了 NeMo 12B:性能优于 Llama 3 8B, Gemma 2 9B -
7月16日,HuggingFace 发布了SmolLM - 135M、360M 和 1.7B:仅使用 650B 个 token 进行训练,击败Qwen 1.5B、Phi 1.5B -
7月17日,Groq 发布了 Llama 3 8B 和 70B 工具使用和函数调用模型:在 Berkely 函数调用排行榜 (BFCL) 上实现了 90.76% 的准确率 -
7月19日,Salesforce 发布了 xLAM 1.35B 和 7B 大型动作模型:7B 模型在 BFCL 上的得分为 88.24%, 2B为78.94%
OpenAI 发布 GPT-4o mini,主打实惠
Apple发布DCLM,数据、模型权重、训练代码全开源!
https://huggingface.co/apple/DCLM-7B
数据集:
https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
仓库:
https://github.com/mlfoundations/dclm
Mistral&Nvidia 发布NeMo 12B,企业级人工智能!
https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407 https://huggingface.co/mistralai/Mistral-Nemo-Base-2407
HuggingFace 发布SmolLM - 135M、360M 和 1.7B,可在手机运行!
https://top.aibase.com/tool/smollm
模型:
https://huggingface.co/blog/smollm
Groq发布Llama3函数调用专用模型,BFCL排名第一
https://huggingface.co/Groq/Llama-3-Groq-70B-Tool-Use
Salesforce 发布xLAM,自主计划并执行任务以实现特定目标!
大型动作模型 (LAMs) 是先进的大型语言模型,旨在增强决策能力并将用户意图转化为可执行的操作,与现实世界进行交互。
https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4
https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k
AI未来:向多元化方向发展
参考资料
[2]https://zhuanlan.zhihu.com/p/709968629
[3]https://finance.sina.com.cn/roll/2024-07-20/doc-inceufea4483904.shtml
[4]https://baijiahao.baidu.com/s?id=1804909497687646306&wfr=spider&for=pc
[5]https://wow.groq.com/introducing-llama-3-groq-tool-use-models/?continueFlag=48a4e33852a014bbc88ad384a1be9ff2
[6]https://x.com/reach_vb/status/1814244909680832941
[7]https://x.com/karpathy/status/1814038096218083497
评论