计算网络生物学_数据、模型和应用(下)
题目题目
Computational network biology: Data, models, and applications.
知识点
- Ferreira等发现在基因调控网络和信号网络中,基序的拓扑分布是不同的,信号网络中的基序往往是对称组织的,而在基因调控网络中,基序是不对称分布的。
- 在生物网络中,被过度表达的基序往往形成生物过程的基本功能单元,网络基序分析已经在调控网络、代谢网络、食物网络、大脑网络等方面得到了研究。
- 在大型网络中,检测网络基序的主要困难在于可能的子网络的数量随着网络或基序的大小呈指数增长。
Network entropy [网络熵]
- 网络熵是对复杂网络的一种度量,是从信息论的关键概念扩展而来,揭示了网络的结构复杂性和多样性。
- 最常用的网络熵形式是基于Shannon熵,网络中节点i的熵定义如下:
或者
式中,P(k)为度为k的节点所占的比例,表示度的分布。
- 网络熵是一种有用的定量指标,可以用来描述不同的疾病状态,如肿瘤与正常组织以及不同的进展阶段。
- 相互作用网络的无标度(或近无标度)特性以及差异基因表达与节点度的正相关关系将驱动癌细胞网络熵的增加。
Fractal and self-similarity [分形与自相似]
- 网络的分形属性是包含自相似性的对象,在这些对象中,它们在不断增大的网络规模上呈现出相同的模式。
- 分形和自相似的特性在许多生物网络中都有经验观察到,如蛋白-蛋白相互作用网络、人类细胞分化网络和脑功能网络。
- 分形和自相似的性质在生物系统中得到了广泛的应用,包括发展计算生物网络中基序的算法、预测必要基因和测量蛋白质的重要性。
Resilience of network failures [网络的鲁棒性]
- 网络弹性(或鲁棒性)是一种度量,用于描述在故障(如节点删除或边缘断开)时调整活动以保留网络基本功能的能力。
- 网络弹性最简单、最常用的定义是通过删除一定比例的节点或边来测试网络拓扑变化。
- 为了应对网络故障,从生态学,生物学到社会学和经济系统都深入研究了网络特征(拓扑和动态)与网络弹性之间的相关性,以发现并设计原理增强网络弹性并防止系统崩溃。
- 生物系统中的网络故障包括蛋白-蛋白相互作用中的边缘突变、代谢网络中的酶去除、遗传网络中的无意义/错义基因突变或基因功能障碍以及大脑网络中的创伤性脑损伤。
- 使用级联故障模型,Smart等人发现与空模型相比,代谢网络对节点故障具有特别强的鲁棒性,分支代谢物的组织是增强鲁棒性的来源。
- 蛋白质-蛋白质相互作用的良好弹性表现出对环境波动的表型鲁棒性,这与生命进化高度相关。
这是一条分界线,以上和计算网络生物学:数据、模型和应用(上)的内容为对生物网络和生物网络结构的概念的介绍,以下部分内容为网络生物学中广泛使用的基于网络的建模方法。
Network centrality [网络中心]

- 识别网络生物学中的重要节点,对其在生物学功能中的重要作用具有重要意义;例如,细胞中的中心蛋白对其生存非常重要,这被称为中心-致死规则。
- 度中心性是最简单但使用最广泛的方法来确定一个节点的重要性。
- 度中心性只考虑节点的近邻数量,而忽略节点在网络中的位置。然而,节点的位置是描述节点重要性的重要有效指标。例如,位于网络中心的节点的影响要比位于外围的节点的影响大。
- 由于核心中心性良好的性能和较低的计算复杂度,已被广泛应用于识别许多实际系统中有影响的节点。
- H指数是一种被广泛接受的衡量研究人员或期刊学术影响力的指标,它是根据研究人员或期刊的发表情况和引文来衡量的。在生物网络中H指数被用来量化网络节点的影响。
- 中间中心性是最重要的基于路径的中心性,它根据节点的中间值来衡量节点对网络信息流的影响。
- 对于计算穿越整个网络的所有最短路径,介数中心性的时间复杂度非常高,对于大型的真实网络,要得到介数中心性并不容易。在这里,文章引入了另一种基于路径的中心性,称为亲密中心性。
- 与基于度的集中关注节点的邻居数量不同,基于特征向量的集中也考虑了节点邻居的影响。
- PageRank算法是用来对谷歌搜索引擎中的网站进行排名的。PageRank是特征向量中心性的一种变体,它假设网页的重要性由与之链接的网页的数量和质量决定。在PageRank算法中,应该给网络中的每个节点分配一个PageRank值(PR), PR值越大的节点越重要。
- 为了解决在PageRank算法中如何确定参数α达到最好的排名在各种场景的挑战。,Lu等人提出了一种无参数算法LeaderRank算法。
- PageRank和LeaderRank算法收敛速度都较快,且排序性能好,易于应用于真实网络,节点排序方法被广泛应用于生物系统中的基本蛋白、疾病相关基因、脑区、神经元等的识别。
- 综合各种中心性测度将是预测生物系统本质节点更为可靠的方法。
Network propagation [网络传播]
> 1. 假设有一些信息位于多个节点之前,这些节点可以通过链接将信息传递给它们的邻居,然后扩展到它们的邻居的邻居,等等。这种传播将以迭代的方式执行固定数量的步骤或直到收敛。这一过程称为网络传播,又称网络传播或网络扩散,是各种系统中最基本的网络动态。
- 网络传播研究最多的领域是社交网络上的流行病传播或新闻传播。这些领域对网络传播的研究主要集中在疾病流行程度的估计、网络结构对传播过程的影响、如何抑制疾病传播等方面。网络弹性也可以看作是网络故障的传播,当故障传播非常有限时,网络表现出很高的弹性。
- 在生物系统中,一个基因的单个突变(如驱动突变)可以影响其邻近基因并通过网络传播放大突变信号,有时足以扰乱整个通路并驱动单个患者的疾病。
- 许多数学概念,包括扩散过程,随机游走和扩散核,已经被发现来解释网络传播。
- 网络传播在预测潜在疾病基因方面非常强大。对于给定的生物网络结构(a)和已知疾病基因(F0),我们可以通过Eq.得到每个基因稳态(F)的得分,其中得分高的基因将被预测为潜在的疾病基因。
- 网络传播技术可以扩展到与基因表达、表型信息等其他生物信息相结合的网络,从而获得更准确的疾病基因预测。
- 网络传播方法也是一种识别网络模块的有效方法,其中具有大信息流的连接节点被认为是网络模块
Link prediction [链路预测]
> 1. 链路预测的目的是在网络中推断缺失的链路或预测非连接节点之间的新交互。它可以帮助补充真实网络中缺失的数据,并有助于更好地理解网络的演化过程。
- 现有的链路预测算法大致可分为三类:基于相似性的算法、概率和统计模型以及基于机器学习的方法。
Network control [网络控制]
Machine learning in network biology
Applications of computational network biology
Outlook
计算网络生物学中的一些关键挑战:
点评
这篇综述可谓是全方面介绍了生物网络的知识点,概念很多,干货也多,不过从文章中列举的例子来看作者对生物网络提的比较多的是医学相关的,不过对我们植物研究还是有一定的借鉴意义的。文章后半部分介绍的关于机器学习和应用方面涉及的内容比较陌生,也因为精力的问题,没有做过多介绍,感兴趣的可以自己阅读原文。
关键字
Complex networks,Network biology,Disease module,Machine learning

或者
式中,P(k)为度为k的节点所占的比例,表示度的分布。

浙公网安备 33010602011771号