每日AI资讯

阿切是个巨人

共 3682字,需浏览 8分钟

 ·

2023-08-28 18:34

点击  蓝色字体”☝️即可关注「阿切是个巨人」

2023年8月25日,一秒看今天AI发生的大事,命运的齿轮开始转动~


一、《自然》杂志刊登 IBM“AI 模拟芯片”研究成果,效能可达传统芯片 14 倍

8 月 24 日消息,《自然》期刊杂志 8 月 23 日刊登了 IBM 研究实验室的最新研究成果:一种能效为传统数字计算机芯片 14 倍的 AI 模拟芯片。据称,该芯片在语音识别上的效率超过了通用处理器,有望突破当前 AI 开发因为算力性能不足、效率不高而导致的瓶颈。该文章摘要中表示,当前拥有数十亿个参数的 AI 模型可在一系列任务中实现较高精度,但也凸显出传统通用处理器(包含图形处理器、中央处理器等)效能低下的问题。

二、AI 化身“陈婉嫣”助力“2023 香港小姐”决赛,为“史上首位虚拟港姐司仪


8 月 24 日消息,“2023 香港小姐竞选”将于 8 月 27 日晚进行决赛,据 TVB 官方微博消息,今年“港姐决赛”将打破传统,将 AI 元素融入选美,从而诞生了“史上首位 AI 港姐司仪”

据悉,大赛官方通过 AI 综合“过往 50 年港姐冠军的参赛片段”,合成了最接近完美的“香港小姐”形象作为司仪,其得名“陈婉嫣”(Evelyn),据称,这一名字由来,也是 AI 根据历届冠军的中英文名资料生成,意思是“聪明及迷人”。


三、中国知网发布 AI 智能写作平台等“大模型 + AIGC”产品

8 月 24 日消息,据 CNKI 知网官方公众号表示,在由中核集团(内蒙古)市场开发部、中国知网联合清华大学技术创新研究中心等多家单位共同举办的“2023 年创新与大数据知识管理研讨会”上,中国知网正式发布基于“大模型 + AIGC”的大数据知识管理系列产品。


四、Gartner:2023 年全球 AI 芯片收入将达 530 亿美元,2027 年达 1194 亿美元

8 月 24 日消息,根据市场研究公司 Gartner 的最新预测,2023 年全球用于 AI 的硬件销售收入预计将同比增长 20.9%,达到 534 亿美元(当前约 3887.52 亿元人民币)。

Gartner 表示,生成式 AI 的发展和各种基于 AI 的应用在数据中心、边缘基础设施和端点设备中的广泛使用,需要部署 GPU 和“优化的半导体设备”,这将推动 AI 芯片的生产和部署。

五、好未来推出自研千亿级数学大模型 MathGPT ,即日起开放内测


8 月 24 日消息,在好未来 20 周年直播活动中,CTO 田密宣布好未来自研的数学领域千亿级大模型 MathGPT 开启内测。即日起,用户可通过官网(www.mathgpt.com)申请注册账号免费试用体验。今年 5 月,好未来曾公布正在进行自研数学大模型的研发,命名为 MathGPT。MathGPT 是面向全球数学爱好者和科研机构,以解题和讲题算法为核心的数学垂直领域的大模型,也号称是国内首个专为数学打造的大模型。


六、文本转语音 AI 工具 ElevenLabs 完成测试阶段,支持中文等 28 种语言

8 月 24 日消息,爆火的 AI 文本转语音公司 ElevenLabs 近日宣布扩展其平台,推出支持 28 种语言的新的文本转语音模型“Eleven Multilingual v2”,可自动识别 28 种语言,并将文本转换为语音。此次扩展标志着该平台正式完成测试阶段,使其可以为企业和个人使用。

该平台使用了自主开发的新型 AI 模型,可以自动识别包括中文在内的多种语言,并生成具有“丰富情感”的语音。用户可以利用平台的声音克隆工具,无需输入文本,就可以用近 30 种语言说话。


七、革命性的配对软件?Buzr AI让相亲对象顶着你偶像的脸和你语音交流

8月24日 消息:AI Headshot Generator是一款利用人工智能技术创建自然且个性化头像的工具。它提供了无限的场景、发型、服装等选择,帮助用户轻松打造个性化的头像。该工具由来自 MIT 和 Google Brain 的优秀研究人员团队开发,旨在节省用户的时间、金钱和精力,并展现他们最佳的状态。

体验地址:https://buzr.org/



八、美图上线AILogo设计功能


8月23日,美图公司旗下美图设计室正式上线AILogo设计功能,用户只需输入品牌名和一句描述,AI即可生成不同风格的Logo。

  • AILogo设计依托美图AI技术,可以快速生成多种风格和排版的创意Logo。

  • 生成的Logo支持修改和应用到多种场景,并可下载源文件二次设计

  • 当前AILogo包括高端简约风、趣味卡通风、扁平插画风等多种风格。



九、风瘫痪18年,AI让她再次「开口说话」!脑机接口模拟表情,数字化身当嘴替|Nature


瘫痪的Ann失语了18年。就在最近,脑机接口和数字化身,竟让她能用面部表情「说话」了。幸运地是,来自加州大学的团队开发了全新脑机接口(BCI),让Ann控制「数字化身」再次开始说话了。BCI便会拦截大脑信号,将其转化为单词、语音。这里,AI不是去解码整个单词,而是解码音素。

在这项研究中,由加州大学旧金山分校神经外科主任Edward Chang博士领导的研究团队将253针电极阵列植入了Ann的大脑语言控制区。这些探头监测并捕获了神经信号,并通过头骨中的电缆端口将它们传输到一组处理器中,在这个计算堆栈( computing stack)中有一个机器学习AI。



十、好用AI工具推: AI绘画利器条件生图(ControlNet)

controlnet直接翻译过来就是「控制网」,也可以说是Stable difussion的一个插件.有必要介绍一下作者之一是在美国读博的中国人张吕敏,还是个学生发表了诸多与绘画有关的论文.这里先放下最近研究的ControlNet的论文:

地址:https://arxiv.org/abs/2302.05543v1

SD有两个最重要的两个功能是:Lora和ControlNet,一个控制风格,一个控制构图.这次简要讲最重要的构图神器ControlNet. 一般我们直接文生图其实差异性特别大,如图:

如果我们利用ControlNet去控制图片人物的动作,按照一个维度训练就能很好控制绘图的走向了.简单的概述ControlNet的类型主要有以下几类:

线稿:

1)Canny:据说最常用,绘制成线稿.官方github说是most important and perhaps the most frequently used model
2)MLSD:线稿里面的特殊类,是直线检测,适合建筑设计、室内设计
3)lineart :也是线条提取,在1.0版本中我没记错的话可能是fake_scribble
4)lineart_anime:官方说这个要配合anything_v3的大模型使用比较合适,也是ControlNet里面唯一一个可能需要复杂提示词的模型
5)SoftEdge:里面又分了好几种预处理器,官方建议综合效果选择SoftEdge_PIDI
6)Scribble:scribble翻译就是涂鸦,所以自己随便涂几笔,剩下交给AI去发挥,效果真的蛮惊艳

结构:

1)depth:景深图。根据深度和轮廓,然后模型去出图
2)seg:图像的语义分割图。譬如粉色是建筑物、绿色是植物等等,然后再交给模型去对应出图
3)normalbae:法线贴图, 然后同样,再把这个带着构图信息的图交给后面的normalbae模型去参考出图

其他:

1)OpenPose:骨骼捕捉
2)inpaint:局部修图,初步实验下来也还不错
3)shuffle:风格迁移,非常好用&好玩
4)ip2p:指令式修图,动动嘴皮子就可以魔法改图片(不过目前指令识别还有点局限性)
5)tile:用于超清修复的。不是一般的上采样高清,而是会增加原图没有的细节

暂时说这么多,下期整理一篇完整的ControlNet有关学习过程的内容,需要上述张吕敏关于ControlNet论文pdf版本可以扣「1」获取❤️






浏览 78
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报