6万奖金!超分辨率新赛事来了!

共 2431字,需浏览 5分钟

 ·

2020-08-04 21:12


今年,音视频场景异常火热,视频会议、视频社交、互动直播。而 AI 也给音视频领域都带来了新的机遇与挑战。


AI 在音视频领域中有很多应用方向,比如用于优化编解码性能,据说几乎所有下一代编解码标准中都有 AI 的身影;还有音频、视频的处理,比如 AI 降噪、视频超分辨率算法。


仅以视频来讲,视频的AI模型网络深度更深、模型更大,但是处理流程却比较简单,没有像音频数据的时域和频域互转的前后处理过程。

 

目前在视频领域中,大家讨论最多的算法之一就是超分辨率算法。这个算法的功能就是把一张图片、视频实现高质量的放大。这个功能用普通的图片编辑或查看工具也可以实现,只是通过这些工具你得到的会是一张比较模糊的图片。但是,超分辨率算法与传统的图像放大算法的核心区别就在于,它能实现图像细节增强和去模糊。


两者会有大区别呢?我们可以看看下面这张图。左半张图是通过超分辨率算法放大后的,而右边是用图像浏览器修改尺寸放大的。传统的放大一般是使用线性插值来填充新的像素点,实际上就像是一种平滑处理,所以放大后会导致图片看起来很模糊,比如右边图中的尖毛看起来就会更模糊一点。

 

              

 

相较于传统的插值方式,超分辨算法就像是一种更智能的插值技术,在不同的纹理区域有不同的插值选择,而且插值的计算方式也更复杂。      

个应用的网络模型一般是由卷积和反卷积,以及一些激活函数构成的。 卷积层用于计算特征图,反卷积用于上采样计算新的像素点。这种模型结构的好处很明显,你可以输入任意大小的图片尺寸,最终都能得到一个固定系数放大后的输出图像。


那么这项技术对于音视频领域有什么意义呢?

 

最重要的意义在于,可以减少数据传输量,比如我可以只传输一个 360P 的视频数据,但是在你收到视频后,数据通过超分算法放大为 720P,然后渲染显示出来。你看,传输数据量变小了,对于带宽的压力小了,但你仍能看到高清视频。


但比较遗憾的是,目前这个技术在运用到实际场景时,还是存在很多让人意想不到的问题。我们还是拿“猫尾巴”做例子,可以看下面这张图,左半部分的红框中的条纹,是经过超分辨率神经网络模型处理后,额外产生的。这也是目前很多超分网络的通病。这是由于神经网络需要抗模糊和锐化图像,但这也会导致本来应该是平滑的区域,却出现锐化的条纹。 

 

             

不仅如此,正如刚刚所说的,超分辨率算法模型还要面临算法复杂度、性能与质量的挑战。因为当我们将这些算法应用到不同实际运行环境中时,也会收到硬件设备性能等因素的限制。现在很多院校、机构、技术团队也都在做相关研究。相关的专业比赛也有不少。最近就有这么一场围绕“超分辨率图像性能”的技术挑战赛正在进行中。



近期,由声网 Agora、RTC 开发者社区联合DataCastle数据城堡,正式发布了超分辨率图像性能挑战赛旨在吸引更多研究人员参与超分辨率算法的研究,推动超分辨率算法在RTE场景应用,促进工业界与学术界的深度合作。





关于主办方

声网Agora成立于2013年,是全球实时互动云行业开创者,是全球领先的专业服务商。声网Agora为开发者提供简单易用、高度可定制和广泛兼容的应用编程接口API,使得开发者不需要研发或自己构建底层基础设施,只需简单调用Agora API,即可在应用内构建多种实时音视频互动场景。2020年3月单月,声网Agora通过10,000多个活跃应用程序为100多个国家的终端用户提供超过400亿分钟的实时互动。2020年6月,声网Agora登陆纳斯达克,成为全球实时互动云第一股。


声网Agora 的实时互动技术已经赋能到社交直播、在线教育、游戏电竞、IoT、AR/VR、保险、医疗、企业协作等10余行业,共计100多种场景。使用声网Agora服务的企业包括小米、陌陌、新东方、晓黑板、斗鱼、众安保险、The Meet Group、Kumu、印度的欧莱雅等遍布全球的巨头、独角兽及创业企业。


2019年,声网Agora举行AI in RTC-超分辨率挑战赛,吸引了参赛队伍784支,参赛人数1011人,作品提交次数高达1444次。参赛者覆盖北京大学、中国科学研究院、华中科技大学、华南理工大学、西安电子科技大学等知名高校,以及网易、中兴等知名互联网企业,影响超过数十万开发者和技术人才。




赛题任务


将超分辨算法用于处理实时视频流时,模型的处理表现与运算性能,是一个两难的选择。为了追求较低复杂度,可能需要牺牲图像质量;为了追求较高质量的输出,导致设备资源占用过高,产生设备发烫、视频模糊卡顿等现象。


该挑战主要考察算法模型的性能、同时兼顾图像的质量。参赛者需要对图像做2倍的超分辨率处理,算法复杂度控制在2GFLOPs之内,我们提供一个baseline模型,采用PSNR、SSIM及运行时间来综合评估算法的性能,分值高者即获胜。



大赛奖励


一等奖1名:30000元


二等奖1名:20000元


三等奖1名:10000元


优秀奖若干:3000元


注:提交作品即可进入声网Agora招聘绿色通道。



赛程安排


7月28日:比赛开放报名,公布训练集


8月12日:公布测试集(LR),直至9月16日比赛结束期间,参赛者需要按照赛题要求提交参赛模型


9月16日:线上初赛结束后前排队伍提交代码,大赛组织方进行反作弊


9月19日:线上决赛



参赛规则


大赛面向全社会开放,国内外高等院校、科研院所、互联网企业等均可报名参赛,组队上限5人。


大赛组织机构单位中涉及题目编写、数据接触的人员禁止参赛;主办方员工参赛,可参与排名,但不参与评奖及领取奖金。



直达通道

?扫码报名?




?赛事交流?



戳“阅读原文”,立刻参与大赛

浏览 39
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报