谷歌正式推出开源大语言模型 Gemma,声称超越 Meta Llama-2 竞品,...-轻识

作者：张俊林@知乎

关于Google开源Gemma的一些零散的看法：

-Google Gemma代表谷歌被迫再次切入开源领域，谷歌重返开源赛场，这是个大好事，但很明显是被迫的。去年Google貌似已经下定决心要闭源了，这可能源于低估了追赶OpenAI的技术难度，Bard推出令人大失所望使得谷歌不得不面对现实，去年下半年进入很尴尬的局面，闭源要追上OpenAI估计还要不少时间，而开源方面Meta已下决心，还有Mistral这种新秀冒头，逐渐主导了开源市场，这导致无论开源闭源，谷歌都处于被两面夹击，进退为难的境地。很明显，Gemma代表谷歌大模型策略的转变：兼顾开源和闭源，开源主打性能最强大的小规模模型，希望脚踢Meta和Mistral；闭源主打规模大的效果最好的大模型，希望尽快追上OpenAI。目前大模型开源形成三巨头局面：Google Gemma、Meta LLama和欧洲的Mistral。

-目前大模型巨头混战，形成了打压链局面：OpenAI处于链条顶端，主要打压对手是有潜力追上它的竞争对手：谷歌和Anthropic，Mistral估计也正在被列入OpenAI的打压列表中。这个打压链条是这样的：OpenAI→Google &Anthropic & Mistral→ Meta→其它大模型公司

Gemini 1.5其实是很强的，但在宣发策略上被OpenAI临时拿Sora出来打哑火，没有获取应该获取到的足够公众关注，这就是典型的例子。前年年底发布的ChatGPT也是临时赶工出来打压Anthropic 的Claude模型的。这说明一个问题，OpenAI应该储备了一个用于打压对手的技术储备库，即使做得差不多了也隐而不发，专等竞争对手发布新产品的时候扔出来，以形成宣传优势，如果OpenAI判断对手的产品对自己的威胁越强，就越可能把技术储备库里最强的扔出来，比如ChatGPT和Sora，都是大杀器级别的，这也侧面说明OpenAI比较认可Gemini 1.5和Claude的实力。而这种打压策略很明显还会继续下去，以后我们仍然会经常看到类似的情景，不巧的是，可能其它公司比如谷歌也学会这招了，估计也很快会传导到国内大模型公司范围里。所以2024年会比较热闹，估计会有不少大戏上演。

-谷歌开源Gemma不是针对OpenAI 宣发策略的反击，Gemimi 系列的定位才是对标GPT 4的。Gemma是针对开源届的，也就是针对Meta和Mistral的，这侧面说明Meta的LLama 3很快就要发布了，或者Mistral最近会有新品发布。

-关于Gemma的技术报告我觉得反倒没什么特别值得说的，如果要说的话，只是通过Gemma再次证明了，只要数据量足够多（Gemma 7B用到了6万亿Token，效果和Mistral 7B 差不多，这也侧面说明了之前大家猜测Mistral 7B使用了大约7万亿Token的大概率属实），数据质量足够好（增加数学、代码、科学论文等增强模型推理能力的数据），小模型的能力仍然能够得到持续提升。

-关于大模型的开源和闭源，我的判断是如果是做当前最强大的大模型，目前看还是要拼模型规模，这方面开源模型相对闭源模型出于明显劣势，短期内难以追上GPT 4或GPT 4v，且这种类型的大模型，即使是开源也只能仰仗谷歌或者Meta这种财大气粗的大公司，主要是太消耗资源了，一般人玩不起，国内这方面阿里千问系列做得比较好，肯把比较大规模的模型开源出来，当然肯定也不是他们最好的，不过这也很难得了。

-开源模型应该把主要精力放在开发并开源出性能足够强的小规模大模型上（SLLM，Small Large Language Model），我觉得谷歌的开源策略是非常合理的。目前看，作出强大的SLLM并没有太多技巧，主要是把模型压小的基础上，大量增加训练数据的规模，数据质量方面则是增加数学、代码等数据来提升模型的推理能力，比如Gemma 7B用6万亿Token数据，Mistral 7B的7万亿Token数据，两者也应该大量采用了增强推理能力的训练数据，只要持续增加训练数据的规模和质量，模型效果会持续提升，所以SLLM模型的性能天花板目前也没有到头，只要有更多更高质量的数据，就能持续提升SLLM模型的效果，仍然有很大空间。而且SLLM相对GPT 4这种追求最强效果的模型比，训练成本低得多，而因为模型规模小，推理成本也极低，只要持续优化效果，从应用层面，大家肯定会比较积极地部署SLLM用来实战的，市场潜力巨大。也就是说，SLLM应该是没有太多资源，但是还是有一些资源的大模型公司必争之地。我个人最近几个月在SLLM这方面关注度也比较高，我相信2024年开源SLLM会有黑马出现。

——The End——

在看