视觉感知

视觉感知是使用由环境中的物体反射的可见光谱中的光来解释周围环境的能力。这与视敏度不同，视敏度是指人们看得多清楚（例如“20/20视力”）。即使他/她有20/20视力，一个人在视觉感知处理方面也会遇到问题。

由此产生的感知也称为视觉感知，视力，视力或视觉（形容词形式：视觉，光学或眼睛）。视觉中涉及的各种生理成分统称为视觉系统，是语言学，心理学，认知科学，神经科学和分子生物学等多项研究的焦点，统称为视觉科学。

内容

视觉系统[ 编辑]

在人类和许多其他哺乳动物中，光通过角膜进入眼睛，然后镜片将光聚焦到眼睛后部的光敏膜上，称为视网膜。视网膜用作将光转换成神经信号的换能器。这种转导是通过视网膜的专门光感受细胞实现的，视网膜也被称为视杆细胞和视锥细胞，它们通过产生神经冲动来检测光子并做出反应。这些信号由由所发送的视神经，从视网膜上游到中央神经节在大脑。的外侧膝状体，其将信息发送到视觉皮层。来自视网膜的信号也直接从视网膜传播到上丘。

外侧膝状体核向初级视觉皮层发送信号，程序代写接单群733065427也称为纹状皮层。 extrastriate皮质，也称为视觉协会皮层是一组皮质结构，从纹状皮质，以及彼此接收信息。^[1] 最近对视觉关联皮质的描述描述了分为两个功能途径，腹侧和背侧通路。这个猜想被称为两个流假设。

通常认为人类视觉系统对电磁波谱的 370和730纳米（0.00000037至0.00000073米）波长范围内的可见光敏感。^[2]然而，一些研究表明，人类可以感知波长低至340纳米（UV-A）的光，特别是年轻人。^[3]

研究[ 编辑]

视觉感知的主要问题是人们看到的不仅仅是视网膜刺激的翻译（即视网膜上的图像）。因此，对感知感兴趣的人长期以来一直在努力解释视觉处理的作用，以创造实际看到的内容。

早期研究[ 编辑]

显示了视觉背侧流（绿色）和腹侧流（紫色）。大部分人类大脑皮层都与视力有关。

有两个主要的古希腊学校，提供了视觉如何运作的原始解释。

第一个是“ 发射理论 ”，它保持视觉发生在光线从眼睛发出并被视觉物体截获时。如果直接看到一个物体，则是通过“光线”从眼睛中射出并再次落在物体上。然而，折射图像也可以通过“光线方式”看到，它从眼睛中出来，穿过空气，折射后落在可见物体上，这些物体是由于光线的运动而被看见的从眼睛。这个理论得到了欧几里德和托勒密及其追随者等学者的支持。

第二所学校倡导所谓的“介绍 - 使命”方法，将视觉视为来自进入眼睛的物体代表物体。凭借其主要传播者亚里士多德，盖伦及其追随者，这一理论似乎与视觉真实存在的现代理论有一些联系，但它仍然只是缺乏任何实验基础的推测。（在十八世纪的英格兰，艾萨克·牛顿，约翰·洛克和其他人通过坚持视觉涉及一个过程，其中由实际的物质物质组成的光线 - 从被看见的物体发出并进入先见者的思想/进程，进一步推动了插入/插入主义理论。通过眼睛的光圈传感器。）^[4]

两种思想流派都依赖于“喜欢只喜欢”的原则，因此认为眼睛是由一些“内部火焰”构成的，这种火与可见光的“外部火焰”相互作用并使视觉成为可能。柏拉图使得这种说法在他的对话蒂迈欧篇一样，亚里士多德在他的德扇子。^[5]

列奥纳多达芬奇：眼睛有一条中心线，通过这条中心线到达眼睛的一切都可以清晰地看到。

海什木（965 - 。Ç 1040）进行了大量的研究和实验，在视觉感知，扩展托勒密的工作双眼视觉，并评论盖伦的解剖学著作。^[6]^[7]他是第一个解释视觉发生的人，当光在物体上反弹然后被引导到一个人的眼睛。^[8]

Leonardo da Vinci（1452-1519）被认为是第一个认识到眼睛特殊光学特性的人。他写道：“人眼的功能......被大量作者以某种方式描述。但我发现它完全不同。” 他的主要实验结果是，在视线上只有一个清晰明确的视野 - 在中央凹处结束的光学线。虽然他从字面上不使用这些词，但他实际上是中央凹和周边视觉之间现代区别的父亲。^{[ 引证需要 ]}

伊萨克牛顿（1642-1726 / 27）是第一个通过实验发现，通过隔离穿过棱镜的光谱的各种颜色，发现物体的视觉感知颜色是由于物体反射的光的特征而出现的，这些分开的颜色不能改变成任何其他颜色，这与当时的科学期望相反。^[2]

无意识推理[ 编辑]

Hermann von Helmholtz经常被认为是现代视觉感知的第一项研究。亥姆霍兹检查了人眼并得出结论，它在光学上相当差。通过眼睛收集的低质量信息似乎使他无法实现愿景。因此，他的结论是，愿景只能是某种形式的无意识推理的结果：根据以往的经验，从不完整的数据中做出假设和结论。^[9]

推理需要先前的世界经验。

基于视觉体验的众所周知的假设示例如下：

光来自上方
通常不会从下方查看对象
面孔被看见（并被认出）直立。^[10]
较近的物体可以阻挡更远的物体的视野，但反之则不然
数字（即前景物体）倾向于具有凸边界

对视觉错觉的研究（推理过程出错的情况）已经深入了解了视觉系统所做出的假设。

另一种类型的无意识推理假设（基于概率）最近在所谓的贝叶斯视觉感知研究中得到了恢复。^[11]这种方法的支持者认为视觉系统执行某种形式的贝叶斯推理以从感觉数据中获得感知。然而，目前尚不清楚这种观点的支持者原则上如何得出贝叶斯方程所需的相关概率。基于这一想法模型已被用于描述不同的视觉感知的功能，如在运动的感知，对深度的感知，以及数字地面感知。^[12]^[13] “完全经验的感知理论 “是一种相关的和更新的方法，它合理化视觉感知而不明确地调用贝叶斯形式。

格式塔理论[ 编辑]

格式塔心理学家主要在20世纪30年代和40年代工作，提出了今天视觉科学家研究的许多研究问题。^[14]

组织格式塔规则指导了人们如何将视觉组件视为有组织的模式或整体，而不是许多不同的部分。“格式塔”是德语单词，部分翻译为“配置或模式”以及“整体或紧急结构”。根据这一理论，有八个主要因素决定视觉系统如何自动将元素分组为模式：邻近，相似性，闭合，对称性，共同命运（即共同运动），连续性以及良好格式塔（有规律的模式，简单，有序）和过去的经验。

眼球运动分析[ 编辑]

眼球运动前2秒（Yarbus，1967）

在20世纪60年代，技术发展允许在阅读期间连续登记眼球运动，^[15]在图片观看，^[16]以及后来的视觉问题解决^[17]以及耳机 - 摄像机可用时，也在驾驶期间。^[18]

右图显示了目视检查的前两秒内可能发生的情况。当背景失焦，代表周边视觉时，第一个眼球运动会转到男人的靴子上（因为它们非常靠近起始固定并具有合理的对比度）。

以下注视事项从面对面跳跃。他们甚至可以允许面部之间的比较。

可以得出结论，图标面是外围视野内非常有吸引力的搜索图标。该中心凹视力添加详细信息到周边的第一印象。

还可以注意到，存在不同类型的眼球运动：固定眼球运动（微观状态，眼睛漂移和震颤），聚散运动，扫视运动和追踪运动。固定是眼睛休息的相对静态点。然而，眼睛永远不会完全静止，但凝视位置会漂移。这些漂移反过来通过微型眼镜，非常小的固定眼球运动来纠正。聚散运动涉及双眼的合作以允许图像落在两个视网膜的相同区域上。这导致单个聚焦图像。Saccadic运动是从一个位置跳到另一个位置的眼动的类型，用于快速扫描特定的场景/图像。最后，追求运动是平滑的眼球运动，用于跟踪运动中的物体。^[19]

面部和物体识别[ 编辑]

有大量证据表明面部和物体识别是由不同的系统完成的。例如，prosopagnosic患者表现出面部缺陷，但不显示对象处理，而对象无遗传患者（最明显的是患者CK）在对象处理中表现出缺乏面部处理的缺陷。^[20]从行为上看，已经表明，面部而非物体会受到反转效应，从而导致面部“特殊”的主张。^[20]^[21]此外，面部和对象处理招募不同的神经系统。^[22]值得注意的是，一些人认为，人类大脑对面部处理的明显专业化并不能反映真正的领域特异性，而是在一类特定刺激中更为一般的专家级歧视过程，^[23]尽管后一种说法是实质性辩论的主题。使用fMRI和电生理学Doris Tsao及其同事描述了猕猴的大脑区域和面部识别机制。^[24]

认知和计算方法[ 编辑]

在20世纪70年代，David Marr开发了一个多层次的视觉理论，分析了不同抽象层次的视觉过程。为了专注于理解视觉中的特定问题，他确定了三个层次的分析：计算，算法和实施水平。包括Tomaso Poggio在内的许多视觉科学家已经接受了这些级别的分析，并利用它们从计算的角度进一步表征视觉。^[25]

该计算级别的地址，在一个高度抽象的，问题是，视觉系统必须克服。该算法级试图确定可用于解决这些问题的策略。最后，实现级别试图解释如何在神经回路中实现这些问题的解决方案。

Marr建议可以独立地调查任何这些级别的视力。Marr将视觉描述为从二维视觉阵列（在视网膜上）到作为输出的世界的三维描述。他的愿景包括：

一个2D或最初草图的场景，根据场景的基本组成部分，包括边缘，区域等注意在概念上由一个艺术家作为一个印象快速绘制的素描相似的特征提取。
一个2.5 d素描现场有纹理承认等的注意，在这里画一个艺术家的亮点或阴影场景的领域，为客户提供深度的概念到舞台的相似性。
阿3 d模型，其中，所述场景是在一个连续的，3维地图可视化。^[26]

Marr的2.5D草图假设构建了深度图，并且该图是3D形状感知的基础。然而，立体和图像感知以及单眼观察都清楚地表明3D形状的感知先于并且不依赖于对点的深度的感知。目前尚不清楚原则上如何构建初步深度图，以及如何解决图形 - 地面组织或分组问题。Marr忽略了感知组织约束在从双目观看的3D物体生成3D形状感知中的作用已经在3D线对象的情况下进行了实证证明，例如^[27]有关更详细的讨论，请参阅Pizlo（2008 ）。^[28]

转导[ 编辑]

转导是将来自环境刺激的能量转化为神经活动的过程。的视网膜包含三个不同的细胞层：感光层，双极细胞层和神经节细胞层。发生转换的感光层距离镜片最远。它包含具有不同灵敏度的光感受器，称为杆和视锥细胞。锥体负责颜色感知，并且具有标记为红色，绿色和蓝色的三种不同类型。杆，负责在低光下感知物体。^[29]光感受器中含有一种称为光色素的特殊化学物质，它嵌入薄片的膜中; 一个人的杆包含大约1000万个。光色素分子由两部分组成：视蛋白（蛋白质）和视黄醛（脂质）。^[30]有3种特定的光色素（每种都有自己的波长灵敏度），可以在可见光光谱范围内作出响应。当适当的波长（特定光色素敏感的波长）撞击感光器时，光色素会分裂为两个，它向双极细胞层发送信号，双极细胞层又向神经节细胞发送信号，其轴突形成在视神经并将信息传递给大脑。如果由于遗传异常导致特定锥体类型缺失或异常，则会出现色觉缺陷，有时称为色盲。^[31]

对手进程[ 编辑]

转导涉及从光感受器发送到双极细胞到神经节细胞的化学信息。几个光感受器可以将它们的信息发送到一个神经节细胞。有两种类型的神经节细胞：红色/绿色和黄色/蓝色。即使没有受到刺激，这些神经元也会不断射击。当这些神经元的发射速率改变时，大脑会解释不同的颜色（以及大量信息，图像）。红光刺激红色锥体，红色锥体又刺激红色/绿色神经节细胞。同样地，绿光刺激绿色锥体，其刺激红色/绿色神经节细胞，蓝色光刺激刺激黄色/蓝色神经节细胞的蓝色锥体。当神经节细胞通过一个锥体发出信号时，神经节细胞的发射速率增加;当通过另一个锥体发出信号时，神经节细胞的发射速率降低（抑制）。神经节细胞名称中的第一种颜色是激发它的颜色，第二种颜色是抑制它的颜色。即：红色锥形物将激发红色/绿色神经节细胞，绿色锥形细胞将抑制红色/绿色神经节细胞。这是个对手过程。如果红色/绿色神经节细胞的射击率增加，大脑会知道光是红色的，如果速率降低，大脑会知道光的颜色是绿色。^[31]

人工视觉[ 编辑]

视觉感知的理论和观察一直是计算机视觉（也称为机器视觉或计算视觉）的主要灵感来源。特殊的硬件结构和软件算法使机器能够解释来自摄像机或传感器的图像。人工视觉感知长期以来一直在业界使用，现在正进入汽车和机器人领域。^[32]^[33]

posted on 2019-05-18 21:48 Vict0ry 阅读(1835) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部