苹果AI登场，与OpenAI合作，Siri将采用GPT-4o；全球AI独角兽达37家；OpenAI自研芯片进展曝光丨AI情报局-轻识

融资快报

FINANCING NEWS

Harvey寻求20亿美元估值：法律AI初创公司Harvey一直在与投资者商谈融资6亿美元的事宜，公司估值至少20亿美元。Harvey称如果能筹集到这么多资金，就有可能收购法律研究服务公司vLex，以培训自己的产品。

Seven AI获3600 万美元融资：Seven AI是一家通过 AI 帮助企业增强网络攻击防御能力的初创公司。本轮融资由Greylock领投，CRV 和 Spark Capital 也参与了 Seven AI 的融资。

AIGT获3500万美元的天使轮融资：AIGT是一家AI技术开发商，通过引领和实施人工智能技术，促进东南亚国家在全球科技竞争中的地位。OpenAI投资2000万美元，微软M12 Microsoft's Venture Fund INC投资1500万美元，推进AI手机的研发项目。

Thoughtly获300万美元种子轮融资：Thoughtly是一家AI语音代理服务提供商，提供了一个无代码平台来部署AI语音代理。本轮融资由Afore Capital、Greycroft Partners、Expansion Venture Capital投资。

Bem获370万美元种子轮融资：Bem是一个AI数据结构化接口初创公司。平台充当通用通信协议，工程团队能够使用Bem促进不同系统之间的无缝数据交换。本轮融资由Uncork Capital领投，Lookout的创始人Kevin Mahaffey、Roar Ventures以及包括Y Combinator的Garry Tan在内的天使投资者也参与了投资。

Cartwheel获560万美元种子轮融资：Cartwheel是一家专注于使用AI简化3D动画制作过程的初创公司，通过简单的文本描述生成基础的3D动画。本轮融资由Accel领投，Khosla Ventures、Human Ventures、Heretic VC、MVP Ventures、Correlation Ventures、Pelion VC和多位天使投资者参投。

Tektonic AI获1000万美元种子轮融资：Tektonic AI为企业运营提供GenAI智能体，使企业能够消除重复且效率低下的任务。本轮融资由Madrona和Point72 Ventures领投。

Sixfold完成1500万美元A轮融资：Sixfold是一家专注于为保险承保提供端到端风险分析的生成性AI解决方案的公司。本轮融资由Salesforce Ventures领投，Scale Venture Partners以及包括Bessemer Venture Partners和Crystal Venture Partners在内的投资者参与。

Greptile 获400 万美元的种子轮融资：Greptile 使用人工智能帮助开发人员理解代码库。此次融资由 Initialized Capital领导，吸引了各行业知名天使投资者的参与。

镜识科技获得战略投资：镜识科技是一家通用足式机器人研发商，团队首次提出了机器人耦合动力学理论，开发了相应基础关键硬件、机器人操作系统以及数据驱动的控制软件。近日镜识科技获得战略投资，投资方为凯尔达。

惠尔智能完成数千万元A轮融资：惠尔智能是一家AI驱动的出行科技公司，聚焦于L4级自动驾驶相关产品。本轮资金将用于自动驾驶技术研发和产品迭代、海外市场拓展等。

杉木再获数千万元Pre-A轮融资：杉木SHANMU致力于成为AIGC时代的全球第一家AI家庭医生机器人企业。本轮由上市公司「松霖科技」的大股东松霖集团领投，庚辛资本、万物为资本跟投。庚辛资本担任长期独家财务顾问。

业界动态

INDUSTRY NEWS

国内情报

全球 AI 领域“独角兽”企业达 37 家,过去一年新增 17 家，中国新增 5 家:

截至今年 4 月底，生成式 AI 领域的“独角兽”(系估值超过 10 亿美元的未上市企业)企业达到 37 家。与去年 4 月底的 20 家相比数量过去一年内几乎翻了一番。

美国企业仍占 AI 独角兽企业 9 成的份额，而在最近一年内新增的 17 家企业里面，有 10 家将主要基地设在了美国以外的地方,英伟达向 Cohere（加拿大）等 7 家企业出资，谷歌母公司 Alphabet 则向涉足视频生成领域的 Runway（美国）等 4 家企业出资。中国则在过去一年内新增了 5 家独角兽企业，包含月之暗面、MiniMax、零一万物、百川智能和智谱 AI，这些企业均获得了阿里巴巴集团的投资。

HeyGen正逼走中国风投，强制要求红杉中国、真格等机构把股份卖给美国投资者：

成立于深圳、后来把总部迁到美国洛杉矶的生成式 AI 初创公司HeyGen，要求其中国投资者IDG资本、百度风投、红杉中国、真格基金把股权卖给美国投资者。

知情人士称，美国投资者和HeyGen创始人徐卓希望“整顿股权结构表”，即投资者名单，因为美国方面正在加强对中国科技集团和跨境投资的审查。今年3月，HeyGen完成了硅谷Benchmark领投的一轮融资，使得红杉中国等中国投资者大幅减少股份。对此，红杉中国和HeyGen拒绝置评。Benchmark、IDG资本、百度风投和真格基金没有回应置评请求。（钛媒体）

华为宣称Ascend 910B AI芯片成功超越A100 成为中国市场的重要替代品：

华为Ascend与鲲鹏部门首席运营官汪涛表示，Ascend 910B AI芯片在训练性能上已成功超越英伟达A100 AI GPU达20%，缩小了与英伟达 A100 的差。除此之外，腾讯控股和百度等中国领先企业也购买了Ascend 910B芯片，主要用于会议任务。

华为将把小艺打造成超级助手，融合5.5G、AI能力：

华为公司高级副总裁、中国区总裁曹既斌表示，AI智能助理将改变人机交互模式，打破用户时空约束，带来海量、高并发的连接需求。“华为是最早把AI引入到智能手机的，下一步我们将基于盘古大模型把‘小艺’打造为超级助手，融合5G-A、AI的能力，给用户提供体验更好的终端。”

字节跳动计划在马来西亚投资21亿美元建区域人工智能中心：

马来西亚贸易与工业部部长扎夫鲁在社交媒体X发文称，字节跳动计划在马来西亚投资100亿林吉特（约合21亿美元）以建立一个区域人工智能中心。扎夫鲁称，字节跳动还计划额外追加15亿林吉特投资扩建其在马来西亚柔佛州的现有数据中心设施。字节的追加投资将有助马来西亚实现到2025年数字经济占GDP比重增长到22.6%的目标。

百度搜索推出大模型升级版高考服务，看分数就知道能上什么大学：

在百度 APP 搜索“高考”，可直达高考服务页面，提供在线查分、志愿填报、院校专业、录取查询等功能，覆盖考前、考中、考后三大阶段。AI 志愿助手推出专属智能体，可简化填报流程，并结合权威数据给出准确答案。此外，百度搜索整合权威院校专业数据，可深入了解大学概况、专业就业方向、排名，还能了解薪资水平及男女比例等。

阿里云开源通义千问 Qwen2 大模型，上下文窗口最高达 128K：

阿里云通义千问发布 Qwen2 模型，该模型在 Qwen1.5 的基础上进行了重大升级，目前已在 Hugging Face 和 ModelScope 上开源。更新内容包括：增加了 5 种尺寸的预训练和指令微调模型；在中英文基础上增加了 27 种语言相关数据；在多个评测基准上表现领先；代码和数学能力显著提升；上下文长度支持最高达到 128K tokens。

清华系细胞大模型登Nature子刊！能对人类2万基因同时建模，代码已开源：

清华、百图生科团队提出单细胞基础大模型 scFoundation，登上 Nature Methods，相关研究成果也被 NeurIPS2024 接收。该模型基于 5000 万人类单细胞测序的数据进行训练，参数达 1 亿，计算时间为传统 Transformer 架构的 3%左右，在下游任务中表现出卓越的性能提升，并为基因网络推断和转录因子识别提供了新的研究思路。

张亚勤称Transformer五年内会被逐步重构，15-20年内实现AGI：

张亚勤院士点名了AI大模型的五个发展方向，包括多模态智能、自主智能、边缘智能、具身智能、生物智能。他认为，无人驾驶是未来五年最大具身智能应用，并且是第一个通过“新图灵测试”的具身智能。2025年，实现无人驾驶的“ChatGPT时刻”；2030年，无人驾驶汽车将成为市场主流，预计有10%的新车具备L4级别的自动驾驶能力。

张亚勤预计，在未来10年内，大模型和生成式AI将成为主流技术和产业路线；并在15-20年内实现通用人工智能，并通过“新图灵测试”基础大模型将是人工智能时代的技术底座，将与垂直产业模型及边缘模型一起形成新的产业生态。他还谈到现在大模型需要新算法体系，Transformer、Diffusion、AR在5年内会被逐步重构。

更多国内情报

字节上线 AI 虚拟交友聊天平台“小黄蕉”：字节推出AI 虚拟交友聊天产品，可以生成照片，非常接近真人对话情景。

华为联合中山眼科发布ChatZOC眼科大模型：ChatZOC基于眼病知识库和中山眼科中心大数据平台构建，结合最新眼科指南和文献资料，通过华为基础 AI 计算框架和多种先进技术，实现数据的多维度处理和模型学习。

腾讯联合中山大学、港科大推出图生视频模型“Follow-Your-Pose-v2”:只需要输入一张人物图片和一段动作视频，就可以让图片上的人跟随视频上的动作动起来，生成视频长度可达 10 秒。支持多人视频动作生成，泛化能力强。

上交港中文新框架超越Instant3D，5秒完成3D生成：该框架结合微调的多模态大模型，利用 2D 和视频扩散模型生成多视图图像，并通过微调的 3D 多模态大模型进行质量筛选和描述重写，从而自动产生大量高质量的 3D 图像数据，辅助训练更优秀的多视图扩散模型。Bootstrap3D 数据集已全面开源。

北大博士生等全新 BoT 框架推理暴涨 70 倍，24 点图形推理一步成神：BoT 可有效提升 LLM 在多个任务上的性能，在 BoT 的加持下，Llama3-8B 在多项任务中的性能甚至超越了 Llama3-70B，且 BoT 的成本相对较低。

微信输入法内测AI功能，输入后按=获取AI回答：用户在使用输入法时，只需输入相关内容，并按下等号键“=”即可直接获取AI生成的回答。这项功能不仅能够提供介绍，还能根据用户输入的关键词，给出相应的信息反馈。

“AI 预测宝宝长相是不是智商税”上热搜，专家称娱乐性大于准确性：利用四维彩超图生成一张宝宝照片最低只需 6.8 元，等待半小时就能出片。专家表示这种预测只能作为娱乐和参考，并不能完全相信。

广东到 2025 年全省 AI 核心产业规模将超过 3000 亿元：广东发布文件计划 2025 年 AI 核心产业规模超过 3000 亿，2027 年算力规模超 60EFLOPS，2027 年智能软件产业规模达到 270 亿，人工智能自主软件覆盖率达到 50%。

国际情报

苹果AI来了！与OpenAI建立合作，Siri将采用GPT-4o

6月11日凌晨，在WWDC 2024活动上，苹果AI正式推出并命名为Apple Intelligence，苹果AI将会为iPhone、Mac等设备提供一系列AI功能。据介绍，苹果AI拥有管理通知推送、自动转写及生成摘要、生成图片、照片一键清除等AI功能。

据悉，苹果语音助手Siri也植入了AI功能，据现场介绍，苹果宣布和OpenAi公司建立合作，整合对方的ChatGPT。未来将会在Siri中采用GPT-4o，同时，苹果新的操作系统也支持OpenAI的AI写作、文生图等技术。

Apple Intelligence即将登录A17Pro、M1、M2、M3、M4芯片的设备，即手机只适用于iPhone 15 Pro和iPhone 15 Pro Max以及M1或更高的Mac/iPad设备。Apple Intelligence今年夏季将在美国推出英文版使用。（鞭牛士）

原马斯克擎天柱大将在Hugging face开源机器人技术，会做家务的大白复刻低至1800：

Hugging Face机器人项目Le Robot发布机器人Reachy2。它能像机器人大白一样，听懂并正确执行人类发出的指令，比如放杯子、拿水果。团队领军人物Remi Cadene1月才从特斯拉Optimus机器人团队离职。Reachy2数据集和使用的模型都已开源，开源框架和工具也放在了GitHub。机器人ML框架LeRobot，采用了Apache-2.0协议，可免费商用，据作者称达到了SOTA水准，在GitHub上已经斩获了3.4k+星标。

OpenAI自研芯片进展曝光！百万年薪挖角谷歌：

OpenAI计划将目前仅有数人的芯片团队扩展至数十人，且几乎所有新招募的研究人员均为谷歌TPU团队的现任或前任成员。加入OpenAI的团队成员将有机会参与从零开始的创新设计过程，尝试更激进的方法，构建由数百万个加速器组成的系统。

GPT-4欺骗人类高达99.16%惊人率！LLM推理越强欺骗值越高：

德国科学家发表的PANS论文揭示LLM已经涌现出「欺骗能力」，它们可以理解并诱导欺骗策。相比前几年的LLM，更先进的GPT-4、ChatGPT等模型在欺骗任务中的表现显著提升。

目前提出的缓解这一风险的措施，是让AI准确报告内部状态，以检测欺骗输出，还有其他策略检测LLM欺骗行为，按需要测试其输出的一致性，或者需要检查LLM内部表示，是否与其输出匹配。现有的AI欺骗行为案例并不多见，主要集中在一些特定场景和实验中。

Adobe 澄清“霸王条款”，绝不占有用户作品，也不会用于 AI 训练：

此前Adobe更新用户协议，要求用户同意分享作品并允许访问保密作品，用户若不同意则无法使用软件，甚至无法卸载。Adobe 发声明称协议“多年来一直如此”，用户表示不满后，Adobe 后又发博客解释称更新协议是为了改进内容审核流程，增加人工审核。并强调不会用客户内容训练 Firefly Gen AI 模型，也不会拥有客户作品的所有权。

限制不当内容传播！谷歌 Play 商店宣布整顿生成式 AI 类 App：

谷歌更新了针对 AI 类应用程序的指导方针，新政策要求生成式 AI应用程序防止生成受限内容，并对其 AI 模型进行严格测试。明确了 AI 生成的违规内容范围，包括不限于：生成的未经同意的深度伪造性材料；为诈骗提供便利的真人语音或视频记录。鼓励有害行为的内容。为助长欺凌和骚扰行为而生成的内容。主要是为了满足“性需求”的内容。使不诚实行为成为可能的 AI 生成“官方”文件。创建恶意代码。

日本将推出官方AI婚姻匹配App，把关身份认证还要“面试”，马斯克点赞：

日本东京都政府开发了一款婚介 App，正在内测，预计今夏上线。该平台要求用户提供身份证明、税单、单身证明，并接受面试和签署誓约书。用户还需提交 15 项个人信息，包括身高、教育背景、职业等。App 通过 AI 匹配对象，马斯克对此表示称赞。东京都政府已为该 App 及其他婚姻促进项目拨款 2 亿日元，并计划在 2024 财年将拨款提升至 3 亿日元。

准确率可达 70%，科学家利用 AI 解读狗的叫声：

研究发现，用于训练人类语音的 AI 模型可以作为训练动物交流模型的起点。这一模型的主要障碍是缺乏公开可用的数据。研究团队尝试使用采集人类语音数据的方式来采集狗的叫声信息，收集了 74 只不同品种、年龄和性别狗狗的吠叫、咆哮和呜呜声。将收集到的声音信息用于分析人类语音的机器模型中，模型可以很好地理解狗之间的交流，在各种测试中准确率达到 70%。

更多国际情报

OpenAI 公开破解 GPT-4 思维的新方法，Ilya 也参与：研究提出了改进大规模训练稀疏自编码器的方法，并成功将 GPT-4 的内部表征解构为 1600 万个可理解的特征。由此，复杂语言模型的内部工作变得更加可理解。

免费匿名使用 GPT 等热门大模型，DuckDuckGo AI Chat 聊天机器人发布：该AI 聊天机器人可以匿名访问多种模型，通过删除用户个人信息的元数据来实现 AI 聊天的匿名化，并且每日使用次数有限制，以防止不良行为者和滥用。

英伟达CEO黄仁勋跻身全球富豪榜第13位，身价超1060亿美元：过去5年，英伟达股价上涨了近30倍。随着AI芯片需求推动英伟达股价飙升，黄仁勋的财富今年激增超过620亿美元。他的财富来自于持有的英伟达3.5%股份。

AI产品

AI PRODUCTS

双榜首！登顶Hugging Face和GitHub趋势榜Top1

MiniCPM-Llama3-V 2.5：8B 参数，8G 显存，4070 轻松推理，手机端 6-8 tokens/s 高效运行。当前 MiniCPM-V 系列下载总量已超 13 万，GitHub 星标 3k+。

MiniCPM-Llama3-V 2.5 开源地址🔗

https://github.com/OpenBMB/MiniCPM-V

MiniCPM 系列开源地址🔗

https://github.com/OpenBMB/MiniCPM

Hugging Face 下载地址🔗

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

Product Hunt 热榜，自动化合规与安全审查Vanta

Vanta 是一个提供自动化合规性和安全性审查的平台，致力于帮助 SaaS 企业管理风险和实时证明其安全性。通过支持诸如 SOC 2、HIPAA、ISO 27001、PCI 和 GDPR 等多种标准，Vanta 简化了企业的安全性审查流程，提供对员工、资产和供应商风险的全面视野。平台的功能涵盖框架构建、集成、问卷自动化等，帮助企业加速合规进程并增强客户信任。Vanta 还提供丰富的资源，如直播演示、网络研讨会和客户案例研究，协助企业了解和实施合规性解决方案。

🔗https://www.vanta.com/

GitHub Trending 热榜，结对编程助手Terminal AI - Aider 开源

目前 10.7K Star，在 SWE Benchmark 上获得 SOTA 18.9% Pass@1，远超 Devin！

Aider 是一个AI 辅助编程工具，通过与 GPT-4 和 Claude 3 Opus 等多种语言模型配对，在终端中进行交互式编程。它完美整合了 Git 工作流，支持 JavaScript、Python 和 Rust 等主流编程语言，并具有语音识别功能。Aider 不仅能够协调跨多个文件的更改，还能自动生成合理的 Git 提交消息，并与用户的代码编辑器无缝集成。通过简单的命令，用户即可开始与 Aider 一起工作，显著提升编码效率和工作体验。

Aider 超越 Devin、Amazon Q Developer Agent，成为 SWE Benchmark SOTA 的助手，展示了其在解决实际 GitHub 问题上的强大能力。用户评价也证明了 Aider 在提升编码体验和效率方面的优秀表现。许多用户称它为使用过的最佳 AI 编码助手，并分享了在使用 Aider 过程中显著提升的编码效率和工作体验。

🔗https://github.com/paul-gauthier/aider

开发者推荐

1.LlamaCare：专注医疗应用的大型语言模型

研究人员推出了LlamaCare，一个专门为医疗知识调优的大型语言模型。LlamaCare不仅在处理医疗数据方面表现出色，还引入了扩展分类集成技术，以解决LLM中的分类问题。该模型的推出标志着医疗领域人工智能应用的新篇章，可能大幅提升医疗数据处理和诊断的准确性。LlamaCare通过结合最新的机器学习技术和庞大的医疗数据库，能够在短时间内提供高质量的医疗建议和诊断支持。这一创新不仅有望改善临床医生的工作效率，还能为患者提供更为精准的医疗服务。

🔗https://arxiv.org/abs/2406.02350v1?utm_source=uwl.me

2.Whisper Web：开源浏览器内语音识别工具

Whisper Web 是一个实现浏览器内的语音识别功能。这个项目主要使用 TypeScript（93.0%）和 JavaScript（6.3%）编写，并依赖于Transformers.js 库。最新的更新包括添加 LICENSE 文件和更新 README.md、vite.config.ts 等文件。

🔗https://github.com/xenova/whisper-web

3.Qmedia：为内容创作者打造的开源 AI 内容搜索引擎

Qmedia 是一个开源的 AI 内容搜索引擎，专为内容创作者设计，支持文本、图片和短视频内容的提取与分析。这个多模态的引擎不仅可以整合分散的信息，还通过内容卡片展示信息源头和内容分解，帮助用户生成定制化的搜索结果。Qmedia 支持完整的本地部署，包括 Web 应用、RAG 服务器和 LLM 服务器，确保数据隐私和安全。

🔗https://github.com/QmiAI/Qmedia

4.使用 ControlNet 生成多人物画面指南

这篇文章主要介绍了如何高效使用 ControlNet 和 txt2img 技术生成高质量的多人物画面，涵盖控制姿势和背景、处理复杂图像、以及参数优化等方面。

🔗https://github.com/Zuntan03/EasySdxlWebUi/wiki/

今日热议

HOT NEWS

Mistral AI 黑客马拉松

Mistral 刚刚在巴黎举办了有史以来最大规模的 AI 黑客马拉松。超过 1,000 名黑客报名参加，探索使用开源 LLMs 的无限可能。以下是 @MistralAI x @cerebral_valley 巴黎黑客马拉松的决赛入围者名单：

ArxFlix：自动将研究论文转换为引人入胜的视频摘要，包含图表、文字解释和语音功能。获得第二名微调奖。
Microcosm：创建一个虚拟世界模拟器，有实时新闻、股票市场、模拟维基百科和推特代理。风格类似 Windows 95。获得 @onetwoval 认可。
BREAKING BAD：为医疗化学家提供一个强大的代理框架，使用基于 molinstruction 数据集和高质量化学程序指令的定制数据集进行微调。
LeChatOn：视频的视觉 RAG，使用视觉大型语言模型 (VLLMs) 识别并标注对象，与无限长的视频聊天。获得应用程序一等奖。
Matou Garou：AI 代理模拟的狼人游戏，用户需辨别谁是 AI，配有 huggingface 数据集，创建人类与 AI 区分排行榜。获得应用程序二等奖。
Eyestral：混合专家模型 (CuMo)，超越 LLaVA，适用于视频，微调于 VizWiz 数据集，为视觉障碍者提供帮助。获得微调一等奖。
Smol：直接优化 LLM 输出的小模型训练管道，无需数据集，通过 HuggingFace DPOTrainer 生成更多数据。
Remi：微调的购物清单组织器，在聚类项目和组织表格方面优于 GPT-4。