高通人工智能应用创新大赛冠军方案解读
极市导读
该冠军方案是由威富视界有限公司&中国科学院半导体研究所高速电路与神经网络实验室团队提出,选用了EfficientNet作为主体框架构建的垃圾分类识别模型。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
高通人工智能应用创新大赛介绍 2021高通人工智能应用创新大赛由高通技术公司、高通创投主办,极视角、小米、中科创达、CSDN共同协办,TensorFlow Lite作为开源技术合作伙伴。
本届大赛将融合终端侧人工智能(AI)和边缘云技术,携手AI产业链合作伙伴为专注于Android应用程序开发、智能边缘的移动开发者及行业用户提供展示创意和成果的平台,推动5G时代下人工智能技术赋能的众多创新应用。
赛程中使用的高通神经网络处理引擎SDK将为开发者提供端到端的解决方案,使得算法模型可以在任何搭载高通骁龙移动平台的设备上运行,这不仅能够简化、加速AI应用程序的开发,还能更好地支持创新AI应用的落地。
大赛赛题包括两个赛道,赛道1是应用赛道,赛道2属于创新赛道,分别是表情识别、农作物病虫害识别、垃圾分类识别和手绘图像识别。
团队介绍
团队来自深圳市威富视界有限公司&中国科学院半导体研究所高速电路与神经网络实验室,成员分别为:宁欣、石园、姚浩、张倩、李爽,排名不分先后。
任务介绍 — 垃圾分类识别
实行垃圾分类,关注大众生活环境,是社会文明水平的一个重要体现,并已在诸多城市开始推广。本赛题使用手机摄像头,拍摄垃圾图片,通过AI技术对垃圾进行识别分类,有效提高垃圾分类效率,使垃圾分类更便捷。
参赛者需要根据图片给出对应的类别情况,其类别为有害垃圾_杀虫剂(Harmful Waste_Insecticide)、有害垃圾_电池(Harmful Waste_Dry battery)、有害垃圾_电池板(Harmful Waste_Battery board)等146种类别。数据集是由摄像头采集的现场场景数据,训练数据集包括28071张,测试数据集包括12010张。
评审标准
本赛道分为初赛阶段和决赛阶段。初赛阶段是进行线上算法开发,并使用高通SNPE工具转换得出算法得分;决赛阶段是通过演示算法应用视频和答辩PPT,评委依据规则进行评分,初赛成绩和决赛成绩各占40%和60%。
初赛得分采取算法精度、算法性能值综合得分的形式,具体如下:
说明:算法精度取自算法模型标准测试成绩,算法性能值取自模型使用SNPE转换后的模型,在小米(含高通骁龙888芯片)手机DSP上跑出的性能值。
决赛评审规则具体如下:
威富视界&中国科学院半导体研究所团队荣获第一
赛题特点
1、数据分布差异大
数据集图片尺寸不一,相差较大。一方面,由于计算资源和算法性能的限制,大尺寸的图像不能作为网络的输入,而单纯将原图像缩放到小图会使得大图丢失大量细节;另一方面,训练数据总共有28071张,类别146类,平均每类192张图像,同一种类别外表形状差异较大,并且背景不一,这就给分类器造成巨大的挑战。
2、模型量化需选择SNPE
骁龙(SnapDragon)神经处理引擎SNPE是一个针对高通骁龙加速深层神经网络的运行时软件。SNPE支持Caffe、Caffe2、ONNX和Tensor Flow模型,训练的模型将转换为可加载到SNPE运行时的DLC文件。然后使用此DLC文件使用其中一个Snapdragon加速计算核心执行前向推断传递。
3、算法需落地App应用
我们一方面需要对算法精度和性能进行提升;另一方面我们要做好算法落地App的应用,保证App的核心功能可用,逻辑流程顺畅,架构合理,具备良好的可用性、易用性、稳定性、安全性、可运维性等特点。同时针对该赛题需从产品角度考虑商业价值、创新价值,使其与行业成熟方案相比有差异性、高价值创意,并具备广阔的市场和商业前景。
主要工作
算法研发:
1、主体框架选择
(1)精度方面:目前基于深度学习的分类网络框架常用的有Swin Transformer与EfficientNet,两者在精度方面处于相当水平,与其他算法相比具有竞争性,因此我们以两者为初定方案。比赛要求模型首先使用SNPE转换,然后在小米(含高通骁龙888芯片)手机DSP上运行,我们算法框架选用的是pytorch,模型转换SNPE之前,需将其转换为onnx格式,经实验,Swin Transform网络中torch.roll不支持onnx转换,因此我们选用了EfficientNet。
(2)速度方面:比赛需要考虑精度和速度,经多次实验,在权衡两者的情况下,我们最终选取EfficientNet-B0作为Baseline。
2、模型泛化
起初我们考虑到算法性能,我们仅尝试EffficientNet-B0进行模型训练。实验结果显示,模型分类效果不好。经分析,我们将上述问题归纳为以下两个方面的原因:
(1)EffficientNet-B0无论是网络宽度和网络深度相对都较小,学习能力相对较弱。同一种病症在不同植物上表现以及所处不同背景,容易对分类器造成混淆,从而产生分类错误。
(2)另一方面,训练数据总共有28071张,类别146类,平均每类192张图像,同一种类别外表形状差异较大,并且背景不一,使得不同类别的样本较少,模型学习共性特征较困难,造成模型泛化能力较差。
根据上述问题,我们进行了一些尝试:
首先,我们采用了粘贴、随机裁剪、mosaic、仿射变换、颜色空间转换等操作对样本进行增强,缓解过拟合问题,提高模型的泛化能力,增强模型的分类精度。
其次,从优化器层面来讲,我们尝试了SAM优化器。SAM优化器可使损失值和损失锐度同时最小化,并可以改善各种基准数据集(例如CIFAR-{10、100},ImageNet,微调任务)和模型的模型泛化能力,从而为多个应用程序提供了最新的性能。另外, SAM优化器具有固有地提供了标签噪声的鲁棒性,与专门针对噪声标签学习的最新称称所提供的不相上下。
3、模型量化
模型量化采用高通SNPE开发工具将原始pytorch模型转换为DLC模型,同时对转换模型进行8位定位量化,提升模型在骁龙处理器上的运行性能。SNPE工作流程具体如下:
(1)将网路模型转换为可由SNPE加载的DLC文件;
(2)可选择量化DLC文件以在Hexagon DSP上运行;
(3)准备模型的输入数据;
(4)使用SNPE运行时加载并执行模型。
4、实验结果
应用落地
1、市场调研
(1)行业背景:我国的再生资源回收总量为3亿吨,其中十大品种的回收价值总值超过7500亿元,同比增长约28%。目前我国再生资源回收企业有9万多家,回收加工厂3000多家,回收从业人员约1200万人,网点遍布全国约16万个。
据《循环发展引领行动》报,到2021年,资源循环利用产业产值有望超过3万亿元。
(2)行业痛点:通过行业分析,我们发现,生活垃圾中有很多是可分类再回收利用的,另外废品回收产业处于散兵游勇时期,有明显的散、小、乱、污特点。传统回收企业和从业人员地域风险能力弱。总结下来主要有以下痛点:
政府层面:需要解决垃圾环保、资源再利用问题,提高全民环保意识。
扔垃圾者:嫌扔垃圾麻烦,找不到回收站,对可回收物的价值不太了解;
收垃圾者:回收效率低,回收量少
(3)行业竞品:
通过对需求的分析,确定了两类竞品的具体产品:
未使用视觉算法的:易代扔,提供废旧物品回收服务,但可回收品类少,回收点少,操作流程长。
使用了视觉算法的:垃圾分类图解(拍照识别,准确度一般),垃圾(拍照识别、响应慢、不出结果),垃圾分类大全(单个垃圾容易,准确度一般,多个垃圾不准)。
总结:市场上使用视觉分类垃圾的应用不多。
(4)市场调研总结
①市场需求明确,没有独角兽出现;
②现有产品大同小异,产品体验一般;
③市面上产品特色不明显,大都以分类百科、在线下单扔垃圾为主,流程长,不易用;
④使用视觉识别不多;已用视觉识别技术的产品:识别种类太少,准确度不高;
结论:经过调研,我们决定做一款基于计算机视觉的垃圾分类,垃圾回收投扔连接平台。
(5)产品方案介绍 一句话描述:垃圾分类回收投扔链接平台
①核心竞争:垃圾分类算法、规模化垃圾数据
②功能介绍:
提供图像识别一键扔垃圾,展示最近垃圾站 提供垃圾桶地图、回收站地图,就近投递 LBS定位判断垃圾分布点,提升垃圾回收效率 垃圾百科(可回收知识普及、可替代品介绍等科普知识)
未来:后续迭代将提供可回收物估价功能
③交付形式:安卓APP
④运行平台:小米手机、部分安卓手机
⑤界面展示:
⑥使用流程
⑦产品优势
轻量级产品,使用便捷、图像识别自动分类发布扔垃圾需求 轻松定位扔垃圾需求,帮助收垃圾者提高回收效率 轻松找到垃圾站、旧衣服回收站、垃圾通位置,帮助用户找到可扔垃圾的地方
⑧社会价值
有助于促进全民参与垃圾分类和资源再利用习惯 有助于宣传垃圾环保知识的媒体效应
参考文献
1.https://challenge.cvmart.net/race/3/base
2.Liu Z , Lin Y , Cao Y , et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[J]. 2021.
3.https://github.com/microsoft/Swin-Transformer
4.Tan M , Le Q V . EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[J]. 2019.
5.https://github.com/qubvel/efficientnet
6.Pierre F, Ariel K, Hossein M, Behnam N; Sharpness-Aware Minimization for Efficiently Improving Generalization[2020].
7.https://blog.csdn.net/weixin_38498942/article/details/105819685
# CV技术社群邀请函 #
备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~