《图像理解理论与方法》（3）

第8章场景中句法语义

图像理解直观目的：将场景中相应目标和区域进行语义化描述。层次生成模型最接近人之本质，始于句法模式识别（基元提取和文法推断尚未很好解决）。

早期是基于规则的图像理解，但如何获取、存储规则成为研究瓶颈。然后出现基于统计的层析句法分析。

层次生成模型中包括层次结构和上下文信息。将非结构生成模型如随机上下文无关句法（SCFG）与描述性模型（MRF，Markov随机场、图模型）整合在一起。前者针对图像基元，后者表示节点间上下文信息。整合后的概率模型构成了随机上下文有关的图像句法。为层次生成模型之核心。

8.2 句法语言

句法语言是句法结构产生的所有可能的有效结构集合，而在随机句法中，每个结构均与概率有关。

句法重用与歧义

两个节点有相同的子节点可视为重用。

“I saw”the man with the telescope."句法重叠引发歧义有：1）场景歧义，如目标边缘区域与背景灰度相近时。2）高层模式的重叠，如一正方形分成四个部分，有几种分法。3）两个高层部分的连接处，有像素或边缘的共享。4）目标重叠，如背景目标完全被前景遮挡。

语义词汇表达

单词本身有固有属性，也已很多方式关联上下文其他单词（强连接和弱连接）。

Wordnet词汇网

为Princeton大学设计的一种基于认知语言学的英语字典。包含语义信息，区别于普通字典。可以组织语义类别形成与或树状结构。

描述对象：复合词、短语动词、搭配词、成语、单词。

语义关联：同义/反义、上下文、部分。

词性：名词、动词、副词、形容词。每个词性自成一个逻辑语义关系网。

如如何获取图像数据集，并建立合适的句法结构描述，对层次句法模型学习非常重要。其中由UCLA大学莲花上研究院开始了基于句法模型的图像训练集的构建。

8.3 基于统计的句法分析

句法公式

G=（VN,VT,S,R）.VT可视为像素、纹理或其他图像基元，VN是图像中可重用的部分。

随机句法

G=（VN,VT,S,R,P）.每个产生式规则对应一个概率值。【概率P如何通过最大似然估计学习得到，用到时再细看】

上下文有关随机句法

在随机句法定义的与或树中添加水平连接的关联和语境生成与或图，同时定义生成概率模型描述图像的随机上下文有关句法。【如何定义的不得而知】

随机句法与或图

解析图：一个句子w。其产生式规则形成w的姐解析树。解析树pt通过为各种关联增加水平连接并扩展为解析图pg。（小）

与或图：将句法语义融入场景与或图即形成句法与或图.G=<S,VN,VT,R,'E',P>.

与或图定义了上下文有关的图句法，包含了所有可能的解析图，可产生组合数量的结构信息。【万能的与或图啊】在其上定义概率模型即可形成一个随机句法。

句法学习与推理

统计句法分析以半监督学习方式为主：手动注释图像和目标产生解析图，再将数据集初始化过程转移至弱监督学习（最大似然估计和最小最大熵学习机制）中，学习完成后得到的句法针对测试样本进行不同的top-down（预测），bottom-up推理（约束）（贝叶斯框架下），实现理解。

8.4 视觉应用

人造场景解析（矩形，6中属性句法规则）

人体外观建模与推理（类内结构多变性）

目标类别推理识别【什么叫MLE学习方法】

posted on 2014-01-10 11:06 Sweet Smile 阅读(533) 评论(0) 收藏举报