IEEE Fellow 梅涛当选ACM MM 2023大会共同主席！-轻识

↑ 点击蓝字关注极市平台

来源丨AI科技评论

编辑丨极市平台

极市导读

日前，第29届ACM国际多媒体顶级会议已于10月20日至24日在成都举办.会上，IEEE Fellow、京东集团副总裁梅涛当选ACM Multimedia 2023大会共同主席（General Co-Chair）。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

日前，第29届ACM国际多媒体顶级会议（ACM International Conference on Multimedia, 简称ACM Multimedia）已于10月20日至24日在成都举办，京东探索研究院凭借跨模态分析技术、多模态交互数字人技术分别斩获最佳开源项目奖及最佳演示奖（Demo）。会上，IEEE Fellow、京东集团副总裁梅涛当选ACM Multimedia 2023大会共同主席（General Co-Chair）。

最佳Demo奖：ViDA-MAN: Visual Dialog with Digital Humans

贡献：展示了一个完整的多模态数字人系统，包含语音模块、对话模块、视觉模块、驱动模块以及流模块等。

最佳开源奖：X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics

贡献：跨模态分析的多功能和高性能的代码库，统一了最先进的视觉语言技术中的全面的高质量模块。

关于X-modaler和ViDA-Man

过去十年多媒体领域视觉和语言之间的跨模态分析出现了稳定创新和突破的势头。然而，X-modaler出现之前，还没有一个开源的代码库来支持以统一和模块化的方式训练和部署众多的跨模态分析的神经网络模型。京东探索研究院AI团队模态视觉分析代码库X-modaler是业界首个模块化、标准化的跨模态视觉分析代码库，涵盖了视觉语言领域各种前沿技术，并支持各种多模态任务。它可以轻松复现视觉语言领域目前主流的技术，促进学术界在视觉语言领域的发展。同时也便于工业界集成跨模态视觉分析的模块，推动技术进步。

京东探索研究院跨模态视觉分析代码库X-modaler

系统化地集成了跨模态分析各大任务中最常用七大模块（如编码器模块、跨模态交互模块以及解码器模块等），每一个模块也包含了各种前沿技术算法，例如跨模态交互模块可以选择传统的Attention、Top-Down Attention、Meshed Memory Attention以及最新的X-Linear Attention。具体示意如下图：

基于这七大模块，X-modaler就可以轻松支持各种多模态任务，如image/video captioning、vision-language pre-training、VQA、VCR、cross-modal retrieval，同时也能很好地复现每个多模态任务中的前沿技术，例如在image captioning的任务中X-modaler集成了京东AI团队从ICCV17的LSTM-A、ECCV18的GCN-LSTM、再到CVPR20的X-LAN。目前代码库支持的算法如下图，后续将不断加入更多最新技术的实现，整个代码库包括使用文档以及预训练模型均已开源（https://github.com/YehLi/xmodaler）。

在传统的AI认知中，视觉领域、语音领域、自然语言领域等领域之前是独立演进的技术和应用，可以认为是单模态技术，而人是一个看、听、说多模态共同工作的智能体，所以多模态技术是未来人工智能应用发展的方向。

京东探索研究院多模态交互数字人技术ViDA-Man致力于打造具备多感官交互能力的人机交互系统，深入多模态交互技术研究，专注于人机交互的消费科技产品打造。基于该技术开发的多模态交互数字人形象引擎，能够提供快速的形象定制能力，从外观的数字化逐渐深入到行为的交互化、情绪的智能化。

ViDA-Man致力于打造具备多感官交互能力的人机交互系统，深入多模态交互技术研究，专注于人机交互的消费科技产品打造。基于现有的人机对话技术，创新性研究类人风格的虚拟形象生成技术，深度融合计算机视觉、自然语言与语音等多项AI技术，结合泛文娱和智能客服场景，提供真人虚拟形象的新型拟人式交互新体验（项目主页：https://ascust.github.io/vidaman/）。

获奖论文展示了一个完整的多模态数字人系统，包含语音模块、对话模块、视觉模块、驱动模块以及流模块等。先进的ASR技术与基于多音色融合的TTS技术使数字人具备了出色听以及说的能力；基于多技能、多回合的对话系统使数字人具备了多样性的应答能力。基于3D重构技术以及神经渲染技术的视觉模块使数字人具备了逼真的外表以及自然的动作。同时流式服务模块将音视频整合，让系统具备低延迟的实时交互能力。各模块并非独立运作，而是有机整合在一起，使得各模态数据真正实现融合。

京东为什么“看中”多模态技术

数字浪潮的推动让人工智能技术已经实现从不可用到可用，AI产品化时期，诸如智能语音识别技术、智能图片处理技术、基于用户兴趣的算法引擎推荐、智能审核技术、AR/VR技术、5G技术等成为了AI落地的抓手，掀起了科技创新的新浪潮。梅涛表示，获奖技术早已服务于京东云打造的虚拟数字人、拍照购、搭配购等多个产品，并开始在产业化、商业化项目中广泛应用。

例如，这些技术已大规模应用于正在如火如荼展开的京东11.11。如，基于计算机视觉以图搜图的搜索应用，辅助以语音对话交互技术的“拍照购”和“搭配购”功能已在刚刚拉开帷幕的京东11.11中大放异彩，通过拍照或截图方式，直接匹配搭配好的时尚单品，打造“一站加购”、“一键买齐”的购物新体验，帮助商家强种草、高转化。

今年京东11.11期间，针对商品营销内容推出的智能写作服务“达人写作”，形成一篇百余字商品文案仅需300毫秒，5分钟可以创作出1000篇文案，覆盖近3000个商品品类，累计生成3,000万AI内容，相比于人工撰写内容点击转化率超过40%，成本降低93.2%。

除京东内部应用之外，这些获得国际学术界顶尖荣誉的领先技术正在通过京东云这个统一平台输出对外赋能各行各业。比如，基于多模态交互数字人技术研发的“虚拟数字人”能助力京东云智能客服产品提升智能接待、服务和虚拟助手的体验。比如，京东云智能客服业务与某银行合作，打造了全国第一个交互式数字人项目“数字柜员”，有别于播报式数字人，“数字柜员”涉及VTM虚拟坐席交互，利用AI技术，实现用虚拟人替代真人柜员办理业务、把控风险。

可以看到，京东AI技术之所以能取得如此优异的成绩，是其在真实复杂场景的有效实践和千锤百炼。作为京东集团对外技术输出的窗口，京东云不仅是政府、企业、家庭数字化转型全生命周期合伙人，并基于人工智能、大数据、云计算、物联网、区块链、隐私计算等技术，通过数智化全链条技术服务，助力千行百业数字化转型，激发产业无限可能。

关于ACM Multimedia

ACM Multimedia是计算机科学领域中多媒体领域的首要国际会议，1993年以来每年召开一次，已成为多媒体领域顶级盛典，大会致力于推动多媒体的研究和应用。

ACM Multimedia 2009 曾在北京举办，ACM Multimedia 2021 是该会议第二次在中国举办。

参考链接：

1. X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics, ACM Multimedia 2021.

2. ViDA-Man: Visual Dialog with Digital Human, ACM Multimedia 2021.

3. Unsupervised Person Image Generation with Semantic Parsing Transformation，CVPR 2019.

4. Unpaired Person Image Generation with Semantic Parsing Transformation, TPAMI 2020.

5. Down to the Last Detail: Virtual Try-on with Fine-grained Details. ACM MM 2020.

6. Boosting Image Captioning with Attributes, ICCV 2017.

7. Exploring Visual Relationship for Image Captioning, ECCV 2018.

8. X-Linear Attention Networks for Image Captioning, CVPR 2020.

如果觉得有用，就请分享到朋友圈吧！

△点击卡片关注极市平台，获取最新CV干货

公众号后台回复“CVPR21检测”获取CVPR2021目标检测论文下载～

极市干货

神经网络：视觉神经网络模型优秀开源工作：timm库使用方法和最新代码解读

技术综述：综述：神经网络中 Normalization 的发展历程｜CNN轻量化模型及其设计原则综述

算法技巧（trick）：8点PyTorch提速技巧汇总｜图像分类算法优化技巧

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart4）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

觉得有用麻烦给个在看啦~