Google AI全家桶，打响大模型反击战-轻识

谷歌举办 2024 年 I/O 开发者大会，AI 成为绝对主角。在 2 小时主题演讲中，AI 被提及了 121 次，涉及多款基础大模型更新亮相、AI Agent 与多模态生成式 AI 发布、Gemini 入局谷歌全产品线以及新一代硬件展出等事项。

1. 谷歌进入 Gemini 时代，多款新模型更新亮相

在 2023 年谷歌 I/O 大会上，谷歌首次分享了 Gemini 计划：一开始就构建原生多模态模型，能够跨文本、图像、视频、代码等多种数据类型进行推理。自此，谷歌在 2023 年 12 月发布 Gemini 1.0，今年 2 月升级的 Gemini 1.5 Pro 上下文长度可达 100 万 tokens，4 月在模型中加入音频理解、系统指令、JSON 模型等功能。此外，在开源的道路上，谷歌今年 2 月份推出 2B、7B 轻量级开源模型Gemma，该模型采用与创建 Gemini 模型相同的研究和技术构建，并在 4 月份推出了 Gemma 的变体模型 CodeGemma 和 RecurrentGemma。

今年 I/O 大会上，谷歌 AI 大模型已完成升级迭代，Gemini 与 Gemma 性能进一步提升，逐步进入 Gemini 时代。具体而言，谷歌更新了 Gemini 1.5 Pro 的长文本能力，并引入了新的 1.5Flash 轻量版型号，与此同时，Gemma 也升级至第二代并引入新的变体模型 PaliGemma。

1）Gemini 1.5 Pro 进阶版，实现 200 万 tokens 上下文，具备更强大的推理与理解能力。下个月 Gemini 1.5 Pro 还将在 API 层面推出新功能，包括视频输入、并行函数调用和文本缓存，以提高处理多个请求和问答文件时的效率。

2）Gemini 1.5 Flash 是为了满足用户对低延迟和低成本的需求而产生的轻量化模型。1.5 Flash 为 Gemini 家族的新成员，也是 API 中速度最快的 Gemini 模型。它针对大规模、大批量、高频的任务进行了优化，服务更具有成本效益，且依旧具有多模态推理能力和突破的上下文窗口。

3）开源大模型 Gemma 升级至第二代，参数从第一代 2B、7B 的提升至 27B，预计今年 6 月份发布。Gemma 2 采用全新架构，旨在实现突破性的性能和效率，它的性能优于一些尺寸超过其两倍的模型，并且可以在 GPU 或 Vertex AI 中的单个 TPU 主机上高效运行。此外，Gemma 推出第一个视觉语言开源模型PaliGemma，并针对图像字幕、视觉问答和其他图像标记任务进行了优化。

4）此外，Gemini 家族中的 Nano 版本正在从纯文本输入扩展至图像，未来将具有多模态能力。从 Pixel 开始，使用具有多模态功能的 Gemini Nano 的应用程序将能够像人们一样理解世界——它可以处理文本、图像、音频和语音，在保证存储在设备上的信息私密性的同时解锁新的体验。

2. Astra 对标 GPT-4o，图像、音乐、视频多模态模型发布

在谷歌发布会的前一日，OpenAI 发布最新的旗舰型号大模型 GPT-4o，不仅提供与 GPT-4 同等的模型能力，推理速度还更快，还能提供同时理解文本、图像、音频等内容的多模态能力。其中，GPT-4o 最大的亮点是可以实现即时语音对话以及具备先进的视觉和音频理解能力，能够智能感知语气与语态。

谷歌推出 AI Agent 项目 Astra 模型，具备类似 GPT-4o 的能力，可以实现跨文本、音频、视频多模态实时推理。Astra 和 GPT-4o 的使用效果类似，用户可以通过它和 AI 实时对话，以及视频聊天。在发布会上，工作人员在演示视频中将手机镜头对准身边的物品，并向 Project Astra 提出一些疑问，它几乎能做到零延时地准确回答。

AI Agent 具有广泛用途，具体来看：1）健康管理与医疗咨询：AI 健康代理助手可以通过分析用户输入的症状、健康记录和生活习惯，提供个性化的健康建议和早期疾病预警；2）客户服务自动化：AI 代理可以集成在客服系统中，提供7*24 小时无间断服务。能够理解和回应用户查询，提供账户信息、解决常见问题、处理交易等；3）个性化学习辅导：AI 学习代理可以根据学生的学习进度、兴趣和难点定制个性化学习计划。

《AI Agent技术应用合集》

1、面向办公自动化领域的 AI Agent 建设思考与分享 2、AI Agent 在企业经营分析场景的落地 3、LLM和Multi-Agent在运维领域的实验探索

3. Gemini 赋能谷歌全产品线，打造 AI 生产力工具集合

目前，已有超过 150 万个开发者正在使用谷歌各种工具 Gemini 模型，利用它调试代码、获取新的见解并打造下一代 AI 应用。谷歌力图每个人都能从 Gemini的功能中受益，不断将其突破性功能以强大的方式整合至自身产品体系中，其中包括搜索、Photos、Workspace 和安卓等产品中。

1）搜索：谷歌将 Gemini 融入搜索引擎，将支持多轮推理、规划能力以及对视频提问。具体来看，有如下亮点：a）AI 概述：用户可以通过在搜索结果的顶部，获取由 AI 大模型生成的摘要，以此简化整个搜索过程，让复杂问题的检索过程，变得简单；b）多步推理：对于复杂问题的搜索，可将其拆分为一个个小问题，然后自动对问题排序回答；3）拟定计划：在多步推理加持下，AI 概述可为用户提供计划的方案；d）视频提问：通过视频对话进行搜索并逐步获取答案。

2）Photos：推出了新功能——Ask Photos，可以一键从图库中帮用户找到想要的照片和视频。该功能将于今年夏天推出。

3）Workspace：提供的一套生产力和协作工具中，包括谷歌邮箱、谷歌 Docs、谷歌 Calendar 等，使得在这些工具间进行跨应用工作变得更加容易。例如，谷歌邮箱可自动分析邮件以及附件，识别整理好收据，然后一键在 Drive 和 Sheets中处理。

4. AI 时代的基础设施，新一代 TPU 性能最强能效最高

谷歌为 AI 大模型定制基础设施 TPU，支撑 Gemini 及其他模型训练与服务需求。据谷歌黑板报微信公众号，训练最先进的模型需要大量的计算能力。过去六年中，行业对机器学习计算能力的需求增长了 100 万倍，而且每年都会以十倍的速度增长。谷歌25年以来致力于投资技术基础设施，为AI进步提供定制的TPU。

Gemini 完全是在谷歌第四代和第五代 TPU 上进行训练和服务，谷歌 TPU 还支持如 Anthropic 在内的其他领先的 AI 公司训练他们的大模型。

发布会上，谷歌推出第六代 TPU Trillium，在性能和能效上较上一代均有显著提升。据量子位微信公众号，与 TPU v5e 相比，Trillium 的峰值计算性能提高4.7 倍，HBM 和带宽增加了 1 倍，芯片间互联（ICI）带宽也增加了 1 倍。另外，Trillium 的能效比 TPU v5e 高出了 67%以上，主要系公司采取先进的液冷技术。关于推出时间，谷歌计划今年年底向 Cloud 用户提供 Trillium。

除了 TPU，谷歌还推出了 CPU 和 GPU 来支持任何工作负载。CPU 方面，谷歌上个月宣布首款基于 Arm 定制的 CPU——Axion 处理器，可提供业界领先的性能和能效；GPU 方面，谷歌成为首批提供 Nvidia 尖端 Blackwell GPU 的 Cloud提供商之一，该 GPU 将于 2025 年初上市。