《图像理解理论与方法》(3)

第8章 场景中句法语义

图像理解直观目的:将场景中相应目标和区域进行语义化描述。层次生成模型最接近人之本质,始于句法模式识别(基元提取和文法推断尚未很好解决)。

早期是基于规则的图像理解,但如何获取、存储规则成为研究瓶颈。然后出现基于统计的层析句法分析。

层次生成模型中包括层次结构和上下文信息。将非结构生成模型如随机上下文无关句法(SCFG)与描述性模型(MRF,Markov随机场、图模型)整合在一起。前者针对图像基元,后者表示节点间上下文信息。整合后的概率模型构成了随机上下文有关的图像句法。为层次生成模型之核心。

8.2 句法语言

句法语言是句法结构产生的所有可能的有效结构集合,而在随机句法中,每个结构均与概率有关。

句法重用与歧义

两个节点有相同的子节点可视为重用。

“I saw”the man with the telescope."句法重叠引发歧义有:1)场景歧义,如目标边缘区域与背景灰度相近时。2)高层模式的重叠,如一正方形分成四个部分,有几种分法。3)两个高层部分的连接处,有像素或边缘的共享。4)目标重叠,如背景目标完全被前景遮挡。

语义词汇表达

单词本身有固有属性,也已很多方式关联上下文其他单词(强连接和弱连接)。

Wordnet词汇网

为Princeton大学设计的一种基于认知语言学的英语字典。包含语义信息,区别于普通字典。可以组织语义类别形成与或树状结构。

描述对象:复合词、短语动词、搭配词、成语、单词。

语义关联:同义/反义、上下文、部分。

词性:名词、动词、副词、形容词。每个词性自成一个逻辑语义关系网。

如如何获取图像数据集,并建立合适的句法结构描述,对层次句法模型学习非常重要。其中由UCLA大学莲花上研究院开始了基于句法模型的图像训练集的构建。

8.3 基于统计的句法分析

句法公式

G=(VN,VT,S,R).VT可视为像素、纹理或其他图像基元,VN是图像中可重用的部分。

随机句法

G=(VN,VT,S,R,P).每个产生式规则对应一个概率值。【概率P如何通过最大似然估计学习得到,用到时再细看】

上下文有关随机句法

在随机句法定义的与或树中添加水平连接的关联和语境生成与或图,同时定义生成概率模型描述图像的随机上下文有关句法。【如何定义的不得而知】

随机句法与或图

解析图:一个句子w。其产生式规则形成w的姐解析树。解析树pt通过为各种关联增加水平连接并扩展为解析图pg。(小)

与或图:将句法语义融入场景与或图即形成句法与或图.G=<S,VN,VT,R,'E',P>.

与或图定义了上下文有关的图句法,包含了所有可能的解析图,可产生组合数量的结构信息。【万能的与或图啊】在其上定义概率模型即可形成一个随机句法。

句法学习与推理

统计句法分析以半监督学习方式为主:手动注释图像和目标产生解析图,再将数据集初始化过程转移至弱监督学习(最大似然估计和最小最大熵学习机制)中,学习完成后得到的句法针对测试样本进行不同的top-down(预测),bottom-up推理(约束)(贝叶斯框架下),实现理解。

8.4 视觉应用

人造场景解析(矩形,6中属性句法规则)

人体外观建模与推理(类内结构多变性)

目标类别推理识别【什么叫MLE学习方法】

posted on 2014-01-10 11:06  Sweet Smile  阅读(486)  评论(0编辑  收藏  举报