油气大数据分析 第一章 软计算基础(第一节)
第一章 软计算基础
天地之大,霍雷肖,比你所梦想的多得多。
威廉·莎士比亚《哈姆雷特》
石油和天然气行业在过去十年中见证了采用软计算技术的令人信服的争论,因为上游问题变得过于复杂,无法将确定性和解释分析方法委托给孤立的学科。我们发现自己正处于勘探和生产价值链的数据雪崩之中,数据驱动的模型正从专业的好奇心转变为行业的当务之急。
多学科分析方法的核心是提供描述性和预测性模型的数据挖掘技术,以补充沉浸在第一原理中的传统工程分析。数据聚合、集成、不确定性量化和软计算方法的进步使得对不同上游数据的补充观点能够以更及时的方式创建更准确的储层模型。与基于数学、物理学和专家经验的传统解释相比,软计算是适用的、高效的和稳健的,并且资源密集度更低。我们将探索在石油工业中应用丰富的软计算技术所获得的多方面好处。
1.1. 上游数据分析的现状
什么是类人的人工智能?精确的定义很重要,但许多专家合理地回答了这个问题,指出这些短语尚未得到准确定义。伯特兰·罗素评论道:
我不会假装从精确的问题开始。我不认为你可以从任何精确的开始。随着您的进行,您必须尽可能达到这样的精度。
从原始数据中获取知识的断言,包括提供精确的定义,总是来自特定领域的详尽研究,例如上游石油和天然气(O&G)学科。我们看到了影响勘探和生产(E&P)价值链的四大趋势:大数据、云、社交媒体和移动设备;这些驱动因素以不同的速度引导地球科学家实施软计算技术。
跨E&P价值链的大数据可视化需要使用Tukey的探索性数据分析图表、地图和图形套件来揭示多元复杂上游系统中隐藏的模式和关系。我们将在第3、4和9章详细介绍这些视觉技术,因为它们在O&G中实施的数据驱动方法中至关重要。
人工神经网络(ANN)、模糊逻辑(FL)和遗传算法(GA)目前在油气储层管理和模拟、生产和钻井优化、实时钻井自动化和设施维护方面得到了实际应用。支持数据驱动模型的数据挖掘方法在许多行业中无处不在,在过去几年中,油气上游工程师根深蒂固和不合时宜的态度正被现有的业务压力所冲淡,即勘探和生产更多碳氢化合物以解决问题日益增长的全球能源需求。
未来的数字油田(DOFF)和具有多个传感器和仪表的智能井正在高速生成大量不同的数据,这些数据定义了复杂的异质景观,例如油藏井设施集成系统。这些高维数据得到源自社交媒体活动的非结构化数据的补充,事实证明,移动设备在现场操作和云计算中很有价值,在网络和数据管理方面提供了更高的灵活性和更高的性能,我们完美地将软计算方法论与传统的确定性和解释性方法相结合。
1.1.1. 大数据:定义
以下内容旨在解决跨E&P价值链的大数据分析所固有的挑战。根据定义,大数据是一种创造的表达方式,用于表示大量、复杂、离散和/或以非常高的频率整理的数据集的聚合,从而导致传统数据处理应用程序和工具无法解决的实质性分析困难。在关系数据库管理系统(DBMS)中使用大数据来实现桌面统计和可视化软件存在明显的局限性。大数据一词是相对的,取决于组织现有的架构和软件功能;随着TB级演变为PB级并不可避免地演变为EB级,该定义始终是一个不断变化的目标。商业智能(BI)采用描述性统计来处理数据以发现趋势并启动基本测量;而大数据倾向于在归纳统计和非线性系统识别概念领域发挥特长。这使E&P专业人员能够管理大数据、识别相关性、揭示隐藏的关系和依赖关系,并应用高级分析数据驱动的工作流来预测复杂、异构和多变量系统(如储层)中的行为。第2章更详细地讨论大数据,全书的案例研究将努力定义通过一套分析工作流来利用大数据的方法。目的是强调在E&P中结合数据驱动模型和首要原则的优势。
1.1.2. 第一原理
什么是第一原理? 答案取决于你作为一个好奇的旁观者的观点。 在数学领域,第一原理引用公理或假设,而在哲学中,第一原理是不言自明的命题或假设,不能从任何其他命题或假设导出。 因此,第一原理是不能从任何其他原则推导出来的。 经典的例子是欧几里得的几何学,它表明其中的许多命题可以从一组定义、假设和常见概念中推导出来:所有三种类型都构成第一原理。 这些基础通常被创造为先验真理。 更适合本书的核心信息的是,第一原理是直接源自既定科学的理论工作基础,无需做出任何假设。 地球科学家总是采用分析和数值技术来推导出问题的解决方案,而这两种技术都通过近似进行了妥协。
我们已经从几千年前开始的历史中缓和下来,当时经验模型接受了我们的思想,直到几个世纪前,这个景观被基于概括的理论知识分子拥护。 艾萨克·牛顿爵士、约翰内斯·开普勒和詹姆斯·克拉克·麦克斯韦等杰出人物为我们理解大自然母亲的秘密做出了巨大贡献,并进一步使地球科学界能够掌握支撑物理学和数学的基础知识。 这些基本面反映了油气藏固有的异质复杂性。 自从我们漫步在见证复杂系统模拟的计算科学分支、通过数据密集型探索性分析塑造的当前景观、构建数据驱动的模型以来,仅仅过去了几十年。 让数据把故事联系起来。 例如,生产数据反映了流体的运动,因为它们通过相互连接的孔隙无情地穿过储层岩石,在自然压力或随后制造的压力下被推向生产井。 毫无疑问,这些生产数据是包含储层特征知识的百科全书,即使它们的有用性与井附近的局部区域直接相关。 因此,让我们揭示在复杂的多元系统中将井的性能与一组岩石特性和有影响的操作参数相关联的微妙的隐藏趋势和关系。 以第一性原理清洗的地质力学指纹已经触及我们储层的多孔岩石,将碳氢化合物引导到它们的人造管道中。 让我们不要脱离第一原则,而是将我们的科学教义强调的解释性和确定性方法与通过原始数据通过数据驱动模型蓬勃发展为知识而增强的非确定性或随机方法相结合。
1.1.3 数据驱动模型
新模型用于由仪器采集或模拟生成的数据,然后由软件处理,并将结果信息和知识存储在计算机中。
Jim Gray
将来自不同工程学科的大量原始上游数据转化为有用信息对于油气公司来说是一个无处不在的挑战,因为识别关键条件的关系和答案通常隐藏在以各种广度和深度整理的海量数据中。 在一定时间段内,本质上是静止的和非静止的。
O&G储层模型可以表征为物理的、数学的和经验的。计算智能的最新发展,尤其是机器学习领域,极大地扩展了经验建模的能力。包含这些新方法的学科称为数据驱动建模 (DDM),它基于分析系统内的数据。
DDM 固有的焦点之一是发现系统状态变量(输入和输出)之间的联系,而无需明确了解系统的物理行为。这种方法突破了传统经验建模的界限,以适应来自叠加研究领域的贡献:
- 人工智能 (AI),这是对如何将人类智能融入计算机的深入思考。
- 计算智能 (CI),除了人工智能和机器学习的其他领域外,还包括神经网络、模糊系统和进化计算系列。
- 软计算 (SC),与CI接近,但特别强调从数据中提出的基于模糊规则的系统。
- 机器学习 (ML) 起源于AI的一个子组件,专注于CI和SC使用的理论基础。
- 数据挖掘 (DM) 和数据库中的知识发现 (KDD) 通常针对非常大的数据库。DM被视为更广泛的KDD的一部分。使用的方法主要来自统计学和ML。不幸的是,随着不同的实时数据海啸涌入上游E&P价值链,O&G行业正在以 Alfred Wegener 赞赏的速度转向采用DM。
因此,数据驱动的建模侧重于CI和ML方法,这些方法可用于构建模型,根据第一原理补充或替换模型。机器学习算法(如神经网络)用于确定系统输入和输出之间的关系,使用训练数据集,该数据集典型地反映了系统固有的完整行为。
让我们介绍一些在数据驱动方法中实现的技术。
1.1.4 软计算技术
我们将从数据驱动的建模角度列举在整个E&P价值链中实施的一些最流行和最重要的算法。 三种最常见的技术是人工神经网络、基于模糊规则的系统和遗传算法。 所有这些方法都在后续章节中被引用,因为我们通过全球油气资产的案例研究来说明适用性。
人工神经网络
ANN显示出从历史E&P数据集生成准确分析和预测的巨大潜力。在数学建模不可行的情况下应用神经网络。 这可能是由于特定过程中涉及的所有参数都是未知的和/或参数的相互关系对于系统的数学建模而言过于复杂。在这种情况下,可以构建一个神经网络来观察系统努力仿真其功能和行为的行为。
人工神经网络(图 1.1)是一种自适应的并行信息处理系统,可以在对象或数据之间建立关联、转换或映射。它们是解决上游油气行业回归和分类问题的有效且流行的技术。神经网络的基本元素是神经元及其连接强度或权重。
图1-1 人工神经网络
在监督学习场景中,实施一组已知的输入-输出数据模式来训练网络。学习算法采用具有一些先验连接权重(随机数)的初始模型,并应用更新算法通过迭代过程生成最终权重。 人工神经网络可用于在所研究的特定油藏中建立井性能的代表性模型。数据用作输入-输出对来训练神经网络。油井信息、储层质量数据和增产相关数据是ANN的输入示例,其中生产速率描述了各种输出箱。由于使用传统数学技术对这种复杂过程进行建模所需的首要原则充其量是微不足道的,因此神经网络可以明确洞察地层相互作用与增产过程(例如水力压裂策略或酸化计划)之间的复杂性。一旦为研究中的地层完成了相当准确和具有代表性的增产过程模型,就可以进行更多的分析。这些分析可能包括使用模型来回答可能出现的许多假设问题。 此外,该模型可用于确定该领域的最佳和最差完井和增产实践。
达尔文的适者生存理论加上魏斯曼的选择主义和孟德尔的遗传学,形成了被普遍接受的一组论点,称为进化论。
进化计算将进化机制作为算法设计和实现的关键要素。进化计算的主要类型之一是遗传算法 (GA),它是一种有效的全局优化方法,用于解决行为不良、非线性、不连续和多标准问题。
通过采用搜索算法或方法,可以解决生命范围内的众多问题。我们生活在一个几乎无限制的排列组合的世界中。我们需要找到安排会议的最佳时间、化学品的最佳组合、设计水力压裂处理策略的最佳方式,或者挑选最佳股票。我们解决简单问题最常用的方法是试错法。 随着相关参数(变量)数量的增加,搜索空间的大小呈指数增长。这使得找到最佳参数组合成本过高,有时甚至不可能。从历史上看,工程师会通过对参数值进行智能和直观的估计来解决这些问题。
我们可以应用ANN来提供基于网络输入的输出箱(例如,3、6、9 和 12 个月的累积产量),即每口特定井的增产设计、井信息和储层质量。显然,只有增产设计参数受工程控制。油井信息和油藏质量是大自然的一部分。实施辅助数据质量工作流程和一套探索性数据分析 (EDA) 技术来揭示隐藏的模式和趋势至关重要。然后,我们将遗传算法作为潜在的仲裁者来实施,以评估这些刺激参数的所有可能组合,以确定最佳组合。这样一组增产参数被设计为用于提供最高产量(3、6、9 和 12 个月的累积产量)的任何特定井(基于井信息和储层质量)。这些来自最佳增产处理的累积值与井产生的实际累积值之间的差异被解释为可以通过该井的(再)增产来恢复的生产潜力。
基于模糊规则的系统
模糊这个词如何引起你的共鸣?大多数人为其含义赋予负面含义。西方文化中的模糊逻辑一词似乎既将思想重新调整为一个迟钝而混乱的过程,又暗示了一种清晨薄雾的精神状态。另一方面,正如 Mohaghegh 所观察到的,东方文化提倡矛盾共存的概念,因为它出现在阴阳符号中。人类的思想、逻辑和决策过程并没有沉浸在纯布尔中。我们倾向于使用含糊不清的词语来解释我们的想法或相互交流。人类推理、思考和决策的不精确和模糊的过程与布尔计算机逻辑的清晰、科学的推理之间存在明显的冲突。这种冲突升级了计算机在决策过程中协助工程师的使用,这不可避免地导致了传统人工智能或传统基于规则的系统(也称为专家系统)所经历的不足。
模糊集理论所代表的不确定性总是由于事件的随机性或我们为解决问题而分析的信息的不精确性和模糊性。 随机过程中事件的结果严格来说是偶然的结果。 当不确定性是事件随机性的产物时,概率论是采用的理想工具。统计或随机不确定性可以通过敏锐的观察和测量来确定。例如,一旦掷硬币,就不再存在随机或统计不确定性。
在处理复杂系统(如油气藏)时,我们发现大多数不确定性是缺乏信息的结果。系统复杂性导致的不确定性源于我们无法执行令人满意的测量、不精确、缺乏专业知识或自然语言固有的模糊性。模糊集理论是一种对与不精确相关的不确定性类型进行建模的合理且有效的方法。
在不确定性总是难以量化的情况下,总是通过一组确定性地震解释定位的探井被钻入储层,地质模型需要通过数据驱动方法教育的思维方式进行优化。
模糊逻辑首先由 Zadeh 引入,与传统的二进制或布尔逻辑不同,它基于清晰的“真”和“假”集,模糊逻辑允许对象同时属于“真”和“假”集,具有不同的隶属度,范围从 0 到 1。在储层地质学中,自然语言在一段时间内一直发挥着非常重要的作用,因此为复杂和不明确的系统提供了建模方法。为了继续在“人工神经网络”下提出的刺激优化工作流程,我们可以合并一个模糊决策支持系统。该模糊专家系统使用神经网络和遗传算法提供的信息。
然后,专家系统使用可以从在该特定领域工作多年的专家工程师那里收集的信息来增强这些发现,以便选择最佳(再)刺激候选者。 请记住,提供给模糊专家系统的信息可能因信息而异,也可能因公司而异。方法论的这一部分提供了获取、维护和使用一些有价值的专业知识的方法,这些专业知识将留在公司,即使工程师被转移到公司的其他部门,他们的专业知识不再可用。模糊专家系统能够结合自然语言来处理信息。此功能提供了在不太确定的情况下使用不精确信息的最大效率。模糊专家系统中有助于工程师对(重新)刺激候选者进行排序的典型规则可以表示如下:
- IF该井显示出增加 3、6、9 和/或 12 个月累积产量的高潜力,
- AND具有合理但适中的压力
- AND具有低酸化量
- THEN那么该井是(重新 )刺激的候选井。
真值为此方法开发的模糊专家系统中的每个规则相关联。使用参数和相对函数真值作为规则从模糊子集做出决策的过程提供了使用近似推理的方法。众所周知,此过程是许多行业中开发高端专家系统的最稳健的方法之一。因此,在不精确和不确定的环境中合并模糊语言规则、风险分析和决策支持是可行的。
本文来自博客园,作者:智能油气田ing,转载请注明原文链接:https://www.cnblogs.com/gqzxm/p/15258147.html

浙公网安备 33010602011771号