arxiv论文整理20231230-0105(目标检测方向)-轻识

Credible Teacher for Semi-Supervised Object Detection in Open Scene（ICASSP 2024）

摘要：在半监督目标检测（SSOD）中，通过利用未标记数据来提高检测性能取得了巨大成功。然而，在开放场景半监督目标检测（O-SSOD）中，未标记数据可能包含在已标记数据中未观察到的未知对象，这将增加模型对已知对象的预测中的不确定性。对于当前主要依赖自训练的方法来说，这是有害的，因为更多的不确定性会导致伪标签的定位和分类精度降低。因此，我们提出了可信教师（Credible Teacher），这是一个端到端的框架。可信教师采用互动式教学机制，使用灵活的标签，以防止不确定的伪标签误导模型，并通过其他可信伪标签的指导逐渐减少其不确定性。经验结果表明，我们的方法有效地抑制了O-SSOD引起的不利影响，并显著优于现有的对应方法。

点评：有效地利用少量标记数据和大量未标记数据进行学习。

Depth-discriminative Metric Learning for Monocular 3D Object Detection（NeurIPS 2023）

摘要：单目3D目标检测由于RGB图像中缺乏深度信息而面临重大挑战。许多现有方法致力于通过为对象深度估计分配额外的参数，利用额外的模块或数据来提升目标深度估计性能。相比之下，我们引入了一种新颖的度量学习方案，鼓励模型提取深度判别特征，而不增加推理时间和模型大小。我们的方法利用保距函数来组织特征空间流形，以与地面实际深度对象相关。所提出的（K，B，eps）-准等距损失利用了预定的成对距离限制作为调整对象描述符之间距离的指导，同时不破坏自然特征流形的非线性。此外，我们引入了一个辅助头来进行逐个对象的深度估计，提高深度质量的同时保持推理时间。通过实验证明了我们方法的广泛适用性，当集成到各种基线方法中时，整体性能有所改善。结果表明，我们的方法分别在KITTI和Waymo数据集上，平均提高了23.51%和5.78%的性能。

点评：创新点主要集中在深度信息的利用和度量学习方法的设计上，以期望在单目图像上进行高效准确的3D目标检测。

Assisting Blind People Using Object Detection with Vocal Feedback（MI-STA）

摘要：对视力受损的人来说，在室内和室外环境中进行独立移动并安全地行动是非常困难的。此外，这些身体和视力上的挑战阻碍了他们日常生活活动的进行。同样，他们在感知周围环境中的物体方面也存在问题，这可能对他们构成风险。所提出的方法建议通过使用网络摄像头在实时视频中检测物体以实现物体识别过程。使用了基于卷积神经网络的实时目标检测技术You Look Only Once (YOLO)模型。此外，还使用了Python的OpenCV库来实现软件程序，并进行了深度学习过程。将图像识别结果通过Google文本转语音库转换为视力受损用户可以听到的形式，并确定物体相对于屏幕位置的位置。通过使用平均精度（mAP）对获得的结果进行评估，发现与以往方法相比，所提出的方法取得了出色的结果。

点评：结合了计算机视觉和语音反馈技术，使得视觉障碍者也能在室内外环境中独立移动，并安全地行动。

ps：承接程序代写，小程序编写程序应用深度学习卷积神经网络 pytorch paddlepaddle 数据结构机器学习目标检测图像处理

有需要的兄弟们可以在我公众号留言。

论文解读的ppt（有备注，可直接讲）可以在知识星球获取：

我正在「目标检测er的小圈子」和朋友们讨论有趣的话题，你⼀起来吧？

https://t.zsxq.com/0cM8tmd4l