ICML 2021 (Long Oral) | 深入研究不平衡回归问题
程序员大白
共 13022字,需浏览 27分钟
· 2021-05-18
点击上方“程序员大白”,选择“星标”公众号
重磅干货,第一时间送达
导读
本文介绍了一篇被ICML2021接收的工作:Long oral presentation:Delving into Deep Imbalanced Regression。该工作推广了传统不平衡分类问题的范式,将数据不平衡问题从离散值域推广到连续域。
![](https://filescdn.proginn.com/2cb694e8aea70213ffe6fc485436457a/0fa2cb90ff88276c26e17f8327eaa763.webp)
我们提出了一个新的任务,称为深度不平衡回归(Deep Imbalanced Regression,简写为DIR)。DIR任务定义为从具有连续目标的不平衡数据中学习,并能泛化到整个目标范围; 我们同时提出了针对不平衡回归的新的方法,标签分布平滑(label distribution smoothing, LDS)和特征分布平滑(feature distribution smoothing, FDS),以解决具有连续目标的不平衡数据的学习问题; 最后我们建立了五个新的DIR数据集,涵盖了computer vision,NLP,和healthcare上的不平衡回归任务,来方便未来在不平衡数据上的研究。
1. 研究背景与动机
![](https://filescdn.proginn.com/259d7eed4680fe38af6e57108fdbc392/5598ce48d7a77ada713e4449cdffd35b.webp)
![](https://filescdn.proginn.com/4fa2c64ddbadd892e5207482cd869e33/2a0040e79d32de5590e0183a5562eb8c.webp)
![](https://filescdn.proginn.com/b5ca34d45c280281f9d25452356cb128/5f0e5d9e010984ad36998e4d015d29d0.webp)
![](https://filescdn.proginn.com/f459f7a18a08ab3a4bb4f3880b484ab5/4d2408348ed609a19c59e3b6652708e9.webp)
2. 不平衡回归的难点与挑战
![](https://filescdn.proginn.com/1d7e4b6bf99dd5bf4b8afc6370847920/f4259f5ff08b71dc1d6ad0167994843d.webp)
![](https://filescdn.proginn.com/c520f023b007682d56dbc7e9197a669a/ce964418b39c5ea44479af75b07bf691.webp)
3. 标签分布平滑(LDS)
![](https://filescdn.proginn.com/6a6062f476e647853dced1124a899998/1ab902d8dbbfe2590b75a73b781efeb7.webp)
![](https://filescdn.proginn.com/28fa5e93b36c43bbbc0cc932f12358da/90ee602417b92aae7af7421c148a112e.webp)
![](https://filescdn.proginn.com/83fda3ba0529d592edaa73abc54d7670/dc57ae0644f03d5bf71b415f7e83a883.webp)
4. 特征分布平滑(FDS)
![](https://filescdn.proginn.com/0c7008cc236ebf37f6c2040d32e44c6d/61b358fccabea4e9cf154bd78d8d0983.webp)
![](https://filescdn.proginn.com/149381cd04fdab47a03186b90f0eb406/2f9cc375c373ef9b724bcae21357f727.webp)
![](https://filescdn.proginn.com/a8c596e3ff00a3e9f44e50d510165b7e/b7c598534ac60f1970efa9048cb854c8.webp)
5. 基准DIR数据集及实验分析
![](https://filescdn.proginn.com/fd38825769aa412d7a21cec9c49ee29e/a49a53fbc9a9881084dfbf9591a9c340.webp)
IMDB-WIKI-DIR(vision, age): 从包含人面部的图像来推断估计相应的年龄。基于IMDB-WIKI[9]数据集,我们手动构建了验证集和测试集,使其保持了分布的平衡。 AgeDB-DIR(vision, age): 同样是根据单个输入图像进行年龄估算,基于AgeDB[11]数据集。注意到与IMDB-WIKI-DIR相比,即使两个数据集是完全相同的task,他们的标签分布的不平衡也不相同。 NYUD2-DIR(vision, depth): 除了single value的prediction, 我们还基于NYU2数据集[12]构建了进行depth estimation的DIR任务,是一个dense value prediction的任务。我们构建了NYUD2-DIR数据集来进行不平衡回归的评估。 STS-B-DIR(NLP, text similarity score): 我们还在NLP领域中构建了一个叫STS-B-DIR的DIR benchmark,基于STS-B数据集[13]。他的任务是推断两个输入句子之间的语义文本的相似度得分。这个相似度分数是连续的,范围是0到5,并且分布不平衡。 SHHS-DIR(Healthcare, health condition score): 最后,我们在healthcare领域也构建了一个DIR的benchmark,叫做 SHHS-DIR,基于SHHS数据集[14]。这项任务是推断一个人的总体健康评分,该评分在0到100之间连续分布,评分越高则健康状况越好。网络的输入是每个患者在一整晚睡眠过程中的高维PSG信号,包括ECG心电信号,EEG脑电信号,以及他的呼吸信号。很明显可以看到,总体健康分数的分布也是极度不平衡的,并存在一定的target value是没有数据的。
![](https://filescdn.proginn.com/fcc8f1b3bce84d8fb831c51d0222ee12/9e19a851c59ced54f87c8e831a25199a.webp)
![](https://filescdn.proginn.com/a6c2bbbe2363c26cca7d30b8c94247c1/57805be3b14b3611f882ccf8892e59f0.webp)
![](https://filescdn.proginn.com/10823d0175fee7b1e0d1d993686e2556/5ffcdc19bebd613068bac206cf936024.webp)
6. 结语
参考
本文亮点总结
推荐阅读
关于程序员大白
程序员大白是一群哈工大,东北大学,西湖大学和上海交通大学的硕士博士运营维护的号,大家乐于分享高质量文章,喜欢总结知识,欢迎关注[程序员大白],大家一起学习进步!
评论