机器学习在油气勘探开发中应用(上):发展历程和文档图像分割

  机器学习是人工智能的分支,我们将分为三期演示人们从机器中学习到的知识,如文档和图像分割、以及油气勘探开发中的测井相识别、岩石力学分析、岩石物理测井预测、断层解释和地震反演等工作流程,并利用这些技术来检查工作质量,获得细微的洞察力。未来,机器学习可以帮助地球科学家和工程师高效率解决地球物理勘探、油藏地质、油气开发、钻井中的问题,未来算法的突破和计算机能力的增加,将对确定新井位起关键作用。

  机器学习已经存在了几十年也可以认为存在几个世纪了。如果要考虑机器学习的工具和基础,我们需要回到关于贝列斯定理的文章(Bayes and Price,1763;Laplace,1812),它推导了在机器学习中普遍使用的概率构造,最小二乘法的推导(Legendre,1812)和马尔可夫链(Markov,1906)。

  关于学习与机器,第一个实用且富有远见的应用始于1950年,图灵提出了“学习机器”(Turing,1950);马文·闵斯基和迪恩·埃德蒙兹(Crevier,1993)建立了世界上第一个神经网络机器SNARC,以及亚瑟·塞缪尔在IBM公司研制了一个具有自学能力的跳棋程序(McCarthy and Feigenbaum,1990)。在20世纪50年代初的首次推动之后,现代机器学习取得了大量进展,包括感知器算法的发明(Rosenblatt,1958年);自动分化和反向繁殖(Linnainmaa,1970;Rumelhartet.al,1986年);自然语言处理中的频率逆文档频率的概念(Jones,1973年);神经认知机,它是人工神经网络和卷积神经网络的一个现实网络(Fukushima, 1980);时间递归神经网络(Hopfield,1982年);Q-learning有效地促成了强化学习的概念(watkins,1989年);随机森林算法(Ho,1995年);支持向量机(CortesandVapnik,1995);和长短期记忆(Hochreiter and Schmidhuber,1997)。MNIST (LeCun et al,2018)和ImageNet (Deng et al,2009)等开源数据集也推动了机器学习快速进步。我们认为正是由于这些努力,使机器学习在过去10年中呈指数级增长(理想情况下,我们需要这样的地球科学参考数据集)。例如,AlexNet(Krizhevsky et al,2012)是ImageNet竞赛的获胜者,作者在竞赛中发明了一种卷积神经网络结构,其精确度超过亚军10%。此后,AlexNet对机器学习领域产生了很大影响,更具体地说,在计算机视的觉深度学习中的应用方面产生了很大的影响。

  在过去几年中,深度学习在各种应用领域取得了巨大的成功,随着一些新的应用模式的出现,它继续开辟了新的机会。我们看到机器学习在日常生活中的应用,从20世纪90年代的常见应用(如垃圾邮件过滤器)到更高级的案例(如自驾车和医疗成像和诊断的自动化)。任何机器学习应用程序的背后都可以是上述任何一种算法(例如,朴素贝叶斯、决策树、随机林、K最近邻、神经网络等)。然而,有人可能会说,神经网络已经经历革命性进步,并且深度学习的进步、各种类型的递归神经网络的成功案例,导致了今天关于机器学习实现的大肆宣传。这里并不打算在这里详细解释所有这些算法。相反,重点是展示机器学习的应用,以及向机器学习在典型地球科学应用的可能性。例如六彩开奖结果直播现场我们将演示从案例中学习到的知识,如文档和图像分割、测井相识别、岩石物理测井预测和断层解释。这些应用程序是各种地球科学工作流程的重要组成部分,虽然在理论上并不太复杂,但机器学习方法肯定可以节省时间(从而节省金钱)。

  虽然机器学习在各种地球科学应用方面前景广阔,但也有人对“黑匣子”应用以及如何对结果进行质量控制(QC)持怀疑态度。数据科学中有很多可常规实施的质量控制措施。其中交叉验证是一种可靠的方法,这种方法通常被地球科学家称为盲井质量控制(blind well QC),适用于基础良好的应用程序。这里讨论的是,这些方法促使机器学习和从机器中学习概念的形成,这个概念在之前使用的案例中出现过。

  我们将从图像分割和分类算法的一个例子开始,该方法对所有上传文档中的所有文本、表和图像进行分割。运用这些工具在数百种、有时是数千份文件中查找关键字和相关数字,为从业人员节省了大量时间。此算法在两篇论文上的一些结果如图1所示。当Infante-Paez等人(2017年)应用于论文时,该算法正确地对各种数字进行了分割。随后的分类结果有点有趣,因为它将人类照片归类为“石灰岩部分显微照片”(图1a)。

  这仅仅是因为在训练期间没有将人类照片进行标签。因此,该算法找到了最相似的颜色尺度和分布段,在这种情况下,这恰好石灰岩部分显微照片部分相似。有趣的是,即使在将人类作为训练的一部分之后,算法也会以86%的置信度预测这张照片是人类的(图1b)。

  另一个奇怪的错误分类案例如图1d所示。该图是一个拟合历史曲线),通常用于了解源岩的成因和时间,但模型分类为速度模型与48%的概率,或其次作为拟合历史曲线e显示了一个拟合历史曲线,其性质与失败的预测在文本内容、颜色和布局方面非常相似,并由于速度模型配色方案的丰度偏差。它仍然无法得到正确的。这是由于机器学习算法无法正确描述的各种因素造成的。

  图1图像分割示例(Infante-Paez等人的一篇论文对一张人的照片进行了错误的分类,2017)

  第一个问题是配色方案与泛型速度模型非常相似,泛型速度模型本身就是算法中的一个单独类。第二个问题是,如果图像中没有其他上下文,如文本和文本位置,分类器就无法区分这两个类。最后,具有相似布局和配色方案的速度模型的丰富度(约30)相对于相似颜色和埋藏历史曲线)为分类器提供了强烈的偏差。这可以通过在构建训练集时进行小心来解决。对于图像方案中的类似特征布局,应努力确保跨类表示相似图像的适当填充,以便在预测空间中实现良好的分离。

  这些例子清楚地表明,在机器学习应用程序中没有免费的午餐。训练数据集需要强大,预测才能准确执行。它还显示了从机器学习算法的结果中学习的可能性。