双目立体视觉技术-轻识

点击左上方蓝字关注我们

一个专注于目标检测与深度学习知识分享的公众号

编者荐语

双目立体视觉（Binocular Stereo Vision）是机器视觉的一种重要形式，它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像，通过计算图像对应点间的位置偏差，来获取物体三维几何信息的方法。

转载自 | 3D产业联盟

在某些哺乳动物如牛、马、羊等，它们的两眼长在头的两侧，因此两眼的视野完全不重叠，左眼和右眼各自感受不同侧面的光刺激，这些动物仅有单眼视觉（monocular vision)。人和灵长类动物的双眼都在头部的前方，两眼的鼻侧视野相互重叠，因此凡落在此范围内的任何物体都能同时被两眼所见，两眼同时看某一物体时产生的视觉称为双眼视觉（binocular vision)。双眼视物时，两眼视网膜上各形成一个完整的物像，由于眼外肌的精细协调运动，可使来自物体同一部分的光线成像于两眼视网膜的对称点上，并在主观上产生单一物体的视觉，称为单视。眼外肌瘫痪或眼球内肿瘤压迫等都可使物像落在两眼视网膜的非对称点上，因而在主观上产生有一定程度互相重叠的两个物体的感觉，称为复视（diplopia）。双眼视觉的优点是可以弥补单眼视野中的盲区缺损，扩大视野，并产生立体视觉。

双眼视物时，主观上可产生被视物体的厚度以及空间的深度或距离等感觉，称为立体视觉（stereopsis)。其主要原因是同一被视物体在两眼视网膜上的像并不完全相同，左眼从左方看到物体的左侧面较多，而右眼则从右方看到物体的右侧面较多。来自两眼的图像信息经过视觉高级中枢处理后，产生一个有立体感的物体的形象。然而，在单眼视物时，有时也能产生一定程度的立体感觉，这主要是通过调节和单眼运动而获得的。另外，这种立体感觉的产生与生活经验、物体表面的阴影等也有关。但是，良好的立体视觉只有在双眼观察时才有可能。

立体视觉是人眼对看到的景象具有的深度感知能力，而这些感知能力又源自人眼可以提取出景象中的深度要素。

除了双目视觉可产生立体感外，单眼看空间景物时，也能辨别物体的前后深度，具有一定的立体感。对于三维显示技术，更为全面地了解眼睛的立体视觉因素具有重要的意义。现代心理学公认有十种要素来察觉像的深度，其中涉及生理机能的有四种，涉及心理暗示的有六种。

(1) 双目视差(binocularparallax)。由于人的两只眼睛存在间距(平均值为65mm)，因此对于同一景物，左右眼的相对位置(relativeposition) 是不同的，这就产生了双目视差，即左右眼看到的是有差异的图像。

(2) 眼睛的适应性调节(accommodation)。人眼的适应性调节主要是指眼睛的主动调焦行为。眼睛的焦距是可以通过其内部构造中的晶状体进行精细调节的，焦距的变化使我们可以看清楚远近不同的景物和同一景物的不同部位。一般来说，人眼的最小焦距为1.7cm，没有上限。而晶状体的调节又是通过其附属肌肉的收缩和舒张来实现的，肌肉的运动信息反馈给大脑有助于立体感的建立。即使我们用单眼观看物体，这种立体感也是有的，所以可以说是单眼深度暗示。可是这种暗示只在与其他双眼暗示组合在一起，而视距又在2m 之内时才是有效的。

(3) 单眼移动视差(motion parallax)。运动视差是由观察者和景物发生相对运动所产生的，这种运动使景物的尺寸和位置在视网膜的投射发生变化，从而产生深度感。当用一只眼睛看一个固定物体时，则调节就成为对深度感的唯一有效暗示。可是，如果观看位置是允许移动的，我们就可利用双目视差这种效应从各个方向观看物体。这个效应就称为单眼移动视差。特别重要的是，当观看者移动得相当快速时，如坐在飞机上或极快的列车上，更是如此。

(4) 会聚(convergence)。当双眼观看物体上的一点时，两只眼睛的视轴将会聚，两视轴的夹角称为会聚角。对于空间不同物点，视轴将发生变化，为实现这种会聚，人眼肌肉需要牵引眼球转动，肌肉的活动反馈到人脑时就会给出一种深度感觉。实验表明，在适应性调节和会聚之间是存在着相互作用的，一方面对应于一定距离的会聚信息自动地引起一定程度的调节，另一方面调节的信息也影响会聚。这一效应可由简单实验来证明，即我们先遮住一眼，移动另一眼所注视的物体，当物体的距离突然由无限远改变为20cm时，则会聚需要有0.2»0.3s 时间才能对调节所给出的距离信息作出响应。

深度感的心理学暗示

(1) 视网膜像的相对大小。同样大小的物体，当观看距离不同时，在视网膜上成像的大小也不相同，距离越远，视网膜像越小，见图1。或者说，视线方向上平行线上对应两点随着视距的增大，在视网膜上所成像点的距离线性减小。由此，可通过比较视网膜像的大小来判断物体的前后关系。

图1线性透视

(2) 根据视觉这一现象形成了一种绘画方法||线性透视法，透视法是在平面上表现立体感的最有效的方法，在绘画艺术中被广泛采用。但对于传统的中国画，不太遵循透视绘画原理，例如在著名的韩熙载夜宴图中(图2(a))，人物的大小看起来不是很协调，这是一种透视错觉，其原理如图2(b)所示，图中人物的图像尺寸是一样的，但看起来远处大一些。

图2透视错觉

(3)视野。人眼的视野很宽，水平方向约220±，垂直方向约130±，呈椭圆形。但在通常的显示方式中，图框均在视野之内，因此缺乏立体视觉的身临其境感。为此，增大画框或者使画框不清楚，可以增强立体感。例如，宽银幕电影的立体感就比窄银幕的强，而全景电影由于没有画框，立体感更强。

图3空气透视

(4)光和阴影。物体上光亮部分和阴影部分的适当分配可以改变或增强立体感，阴影及影子对深度感也是心理学上重要的暗示。

(5)空气透视。对于同一场景，近处的景物比远处的景物或多或少有些模糊，这样也可以产生深度暗示。景物越远，其发出的光线被空气中的微粒(如尘埃、烟、水汽) 散射越多，因而显得越模糊, 如图3所示。

(6)重叠。当景物有相互遮挡时，也会产生深度暗示，如图4所示，包含球体、柱体和立方体三个几何体，三个几何体在不同遮挡情况下将产生不同的立体视觉。

图4重叠产生的深度视觉

深度感的生理机能是三维显示最重要的依据，而心理学暗示所产生的立体感一般用于平面显示技术之中，如绘画和立体画(图5)，图中在地上爬的两个人中一个是真实的人，而另一个却是画在地面上的。以心理学暗示或主观经验对图像产生的立体知觉不存在视差，即两只眼睛看到的图像是一样的，当然更不能期望通过移动眼睛或图片去看到物体的不同侧面。

图5立体绘画

大家都去过电影院看过3D电影吗？在看3D电影的时候你需要领取一副3D眼镜，你就可以发现电影里的画面如同真实般的浮现在你的眼前。

但你知道3D眼镜为什么能够达到这种效果呢？对了，是因为我们营造了立体视觉，3D眼镜欺骗了我们的大脑，把屏幕上的东西认为是立体的。

什么是立体视觉呢？简单来说，立体视觉是指通过双眼视觉获得可见对象的深度和距离的过程。

我们有两个眼睛，眼睛从不同的位置接收物体产生的光线，就形成了视差。双眼视觉形成的视差可以辅助产生精细的深度知觉，进而产生立体视觉。

我们可以用一个非常简单的实验来验证这种现象。首先，盯着你附近的一个物体，然后用手遮掉一只眼睛，交替遮掉另一只眼睛，你看到的物体的角度是一样吗？

这样你就可以感受到视差的存在了。

除了3D眼镜，我们还可以用什么方式营造立体视觉呢？接下来，创客达芬奇用三个方法和若干例子，带你看看营造立体视觉的各种方式。

方法一：视觉陷阱

制造视觉陷阱的方法有很多，比如下面这个“跟着你动的眼睛”的制作，就是这么一个案例。

这是科技学堂网站的课程《小实验大科学：未成年人科普50例》的案例。首先我们要准备一个面具，在面具后方一定的距离准备一张纸条，在纸条上画上两个眼睛，你就可以做一个跟随你的眼睛了。

另一个制造视觉陷阱的就是浮动方块了。它利用半个立方体欺骗你的大脑，让你误以为是一个浮动的立方体。与之相似的还有盯着你看的小恐龙，同样也是利用半个立方体来欺骗大脑

视觉陷阱经常被用于艺术创作中，比如街头艺术的立体画，就是用到了视觉陷阱的原理。

不要以为立体画只有现在才有哦，早在巴洛克时期就有立体画了。比如下面这幅是文艺复兴画家汉斯·荷尔拜因的代表作《大使们》，从画的侧面看，你能发现一个用视觉陷阱画成的骷髅。

此外还有让画面人物逃出画框的画法，也是用到了视觉陷阱。用立体视觉让人物扑面而出，比如十九世纪卡索的这幅《潜逃》

用同样的原理，我们还可以在普通的电影画面中加上两条白线，产生一个类似画框的效果，让画面突出画框，形成立体视觉。

方法二：全息投影

第二种方法是利用全息投影的方法，利用多光源的干涉和衍射制作出来的立体效果。目前全息投影的技术还没完全成熟，不过我们可以通过制作“伪全息投影”来欺骗眼睛，获得立体视觉。

这是一个利用四块亚克力板和一个手机投影做成的“伪全息投影”，这种方法常用语商品展示中，你自己也可以做一个，换一个角度看是这样子的。

第三种方法：产生视差

第三种方法，就是让我们的两个眼睛看到不同的画面，让眼睛误以为产生视差，从而达到立体视觉的效果。我们熟悉的3D眼镜、VR眼镜就是利用这种原理。

3D眼镜分为两种：色差式眼镜和偏振式眼镜。它们都是让左右眼屏蔽一部分光，从而欺骗眼睛看到两种不同的图像，进而产生视差。

它们的屏蔽方式不一样，色差式是利用不同的镜片颜色来屏蔽光线；偏振式是利用两个互相垂直的偏振片来屏蔽某个方向的光。

下次去看3D电影的时候，看看你拿到的是色差式还是偏振式的眼镜。

而VR眼镜用的也是类似的原理，只不过它直接分别在两只眼睛前面显示不同的画面，从而产生视差，欺骗了你的眼睛。

你甚至可以在网上下载图纸，自己动手制作一个VR眼镜。

伊娃老师在《我爱绿色生活：2017青少年科学调查体验活动慕课》课程中也只做了一个VR眼镜，看看她是怎么做的吧。

总结一下，我们现在认识了三种制造立体视觉的方法，分别是视觉陷阱、全息投影和产生视差。

双目立体视觉这一有着广阔应用前景的学科，随着光学，电子学以及计算机技术的发展，将不断进步，逐渐实用化，不仅将成为工业检测，生物医学，虚拟现实等领域。目前在国外，双目立体视觉技术已广泛应用于生产，生活中，而我国正处于初始阶段，尚需要广大科技工作者共同努力，为其发展做出贡献。

1、立体视觉的发展方向

就双目立体视觉技术的发展现状而言，要构造出类似于人眼的通用双目立体视觉系统，还有很长的路要走，进一步的研究方向可归纳如下：

（1）如何建立更有效的双目立体视觉模型，能更充分地反映立体视觉不去确定性的本质属性，为匹配提供更多的约束信息，降低立体匹配的难度。

（2）探索新的适用于全面立体视觉的计算理论和匹配择有效的匹配准则和算法结构，以解决存在灰度失真，几何畸变（透视，旋转，缩放等），噪声干扰，特殊结构（平坦区域，重复相似结构等），及遮掩景物的匹配问题；

（3）算法向并行化发展，提高速度，减少运算量，增强系统的实用性；

（4）强调场景与任务的约束，针对不同的应用目的，建立有目的的面向任务的双目立体视觉系统。

在机器视觉赖以普及发展的诸多因素中，有技术层面的，也有商业层面的，但制造业的需求是决定性的。制造业的发展，带来了对机器视觉需求的提升；也决定了机器视觉将由过去单纯的采集、分析、传递数据，判断动作，逐渐朝着开放性的方向发展，这一趋势也预示着机器视觉将与自动化更进一步的融合。需求决定产品，只有满足需求的产品才有生存的空间，这是不变的规律,机器视觉也是如此。

2、国外研究动态

双目体视目前主要应用于四个领域：机器人导航、微操作系统的参数检测、三维测量和虚拟现实。

日本大阪大学自适应机械系统研究院研制了一种自适应双目视觉伺服系统，利用双目体视的原理，如每幅图像中相对静止的三个标志为参考，实时计算目标图像的雅可比短阵，从而预测出目标下一步运动方向，实现了对动方式未知的目标的自适应跟踪。该系统仅要求两幅图像中都有静止的参考标志，无需摄像机参数。而传统的视觉跟踪伺服系统需事先知道摄像机的运动、光学等参数和目标的运动方式。

日本奈良科技大学信息科学学院提出了一种基于双目立体视觉的增强现实系统（ar）注册方法，通过动态修正特征点的位置提高注册精度。该系统将单摄像机注册（mr）与立体视觉注册（sr）相结合，利用mr和三个标志点算出特征点在每个图像上的二维坐标和误差，利用sr和图像对计算出特征点的三维位置总误差，反复修正特征点在图像对上的二维坐标，直至三维总误差小于某个阈值。该方法比仅使用mr或sr方法大大提高了ar系统注册深度和精度。实验结果如图2，白板上三角开的三顶点被作为单摄像机标定的特征点，三个三角形上的模型为虚拟场景，乌龟是真实场景，可见基本上难以区分出虚拟场景（恐龙）和现实场景（乌龟）。

日本东京大学将实时双目立体视觉和机器人整体姿态信息集成，开发了仿真机器人动态行长导航系统。该系统实现分两个步骤：首先，利用平面分割算法分离所拍摄图像对中的地面与障碍物，再结合机器人身体姿态的信息，将图像从摄像机的二维平面坐标系转换到描述躯体姿态的世界坐标系，建立机器人周围区域的地图；基次根据实时建立的地图进行障碍物检测，从而确定机器人的行走方向。

日本冈山大学使用立体显微镜、两个ccd摄像头、微操作器等研制了使用立体显微镜控制微操作器的视觉反馈系统，用于对细胞进行操作，对钟子进行基因注射和微装配等。

麻省理工学院计算机系统提出了一种新的用于智能交通工具的传感器融合方式，由雷达系统提供目标深度的大致范围，利用双目立体视觉提供粗略的目标深度信息，结合改进的图像分割算法，能够在高速环境下对视频图像中的目标位置进行分割，而传统的目标分割算法难以在高速实时环境中得到令人满意的结果，系统框图如图3。

华盛顿大学与微软公司合作为火星卫星“探测者”号研制了宽基线立体视觉系统，使“探测者”号能够在火星上对其即将跨越的几千米内的地形进行精确的定位玫导航。系统使用同一个摄像机在“探测者”的不同位置上拍摄图像对，拍摄间距越大，基线越宽，能观测到越远的地貌。系统采用非线性优化得到两次拍摄图像时摄像机的相对准确的位置，利用鲁棒性强的最大似然概率法结合高效的立体搜索进行图像匹配，得到亚像素精度的视差，并根据此视差计算图像对中各点的三维坐标。相比传统的体视系统，能够更精确地绘制“探测者”号周围的地貌和以更高的精度观测到更远的地形。

3、国内研究动态

浙江大学机械系统完全利用透视成像原理，采用双目体视方法实现了对多自由度机械装置的动态、精确位姿检测，仅需从两幅对应图像中抽取必要的特征点的三维坐标，信息量少，处理速度快，尤其适于动态情况。与手眼系统相比，被测物的运动对摄像机没有影响，且不需知道被测物的运动先验知识和限制条件，有利于提高检测精度。

维视图像公司采用双目ccd相机，从工业相机内参标定、镜头畸变标定、立体匹配、特征点分割处理等方面给出了详细的数学模型和算法接口。其双目标定软件ccas采用了张正友平面标定法，可以实现机器人导航、微操作系统的参数检测、三维测量和虚拟现实等应用。

东南大学电子工程系基于双目立体视觉，提出了一种灰度相关多峰值视差绝对值极小化立体匹配新方法，可对三维不规则物体（偏转线圈）的三维空间坐标进行非接触精密测量。

哈工大采用异构双目活动视觉系统实现了全自主足球机器人导航。将一个固定摄像机和一个可以水平旋转的摄像机，分别安装在机器人的顶部和中下部，可以同时监视不同方位视点，体现出比人类视觉优越的一面。通过合理的资源分配及协调机制，使机器人在视野范围、测跟精度及处理速度方面达到最佳匹配。双目协调技术可使机器人同时捕捉多个有效目标，观测相遇目标时通过数据融合，也可提高测量精度。在实际比赛中其他传感器失效的情况下，仅仅依靠双目协调仍然可以实现全自主足球机器人导航。

火星863计划课题“人体三维尺寸的非接触测量”，采用“双视点投影光栅三维测量”原理，由双摄像机获取图像对，通过计算机进行图像数据处理，不仅可以获取服装设计所需的特征尺寸，还可根据需要获取人体图像上任意一点的三维坐标。该系统已通过中国人民解放军总后勤部军需部鉴定。可达到的技术指标为：数据采集时间小于5s/人；提供身高、胸围、腰围、臀围等围度的测量精度不低于1.0cm。

END

双一流大学研究生团队创建，专注于目标检测与深度学习，希望可以将分享变成一种习惯！

点赞三连，支持一下吧↓