当前位置: 主页 > 学术动态 >

基于DDPG的注水井调驱方案优化设计研究

点击数:   更新日期: 2023-10-23

中文题目:基于DDPG的注水井调驱方案优化设计研究

论文题目Optimization of Profile Control and Oil Displacement Scheme Parameters Based on Deep Deterministic Policy Gradient

录用期刊ACS Omega (SCI检索,JCR Q2)

原文DOI10.1021/acsomega.3c02003

录用/见刊时间:2023-6-19

作者列表

1)檀朝东,中国石油大学(北京),信息科学与工程学院,教授,博士生导师

2)王春秋,中国石油大学(北京),石油工程学院, 油气田开发工程专业,硕士 20

3)田津杰,中海油能源发展股份有限公司工程技术分公司

4)牛会钊,北京雅丹石油技术开发有限公司

5)魏 琪,中国石油大学(北京),石油工程学院,石油与天然气工程专业,博士 22

6)张雄英,北京雅丹石油技术开发有限公司

摘要:

注水井调驱方案参数设计对改善水驱效果,提高油田产量、采收率具有重要作用。本文以注水井组单元的半年增油量作为目标函数,以调驱体系类型、浓度、注入量及注入速度等参数范围为约束,构建了基于DDPG算法的调驱方案参数优化模型和求解方法。利用调驱历史数据和XGBoost方法,构建调驱过程代理模型作为环境,优化前后的井组增油量变化率作为奖励函数,体系类型、浓度、注入量及注入速度作为动作,采用带噪声的高斯策略作为动作探索策略。以海上油田XX区块为例,对注水井组的复合段塞调驱工艺(前置段塞+主体段塞+保护段塞)方案参数进行实例分析,即优化设计了各段塞体系类型、浓度、注入量及注入速度等参数。研究表明:利用DDPG算法建立的调驱方案参数优化模型,比较粒子群优化模型,针对同调驱效果的井组都能获得较高增油量的调驱方案,具有较强的寻优和泛化能力。

背景与动机:

注水井调驱方案参数设计对改善水驱效果,提高油田产量、采收率具有重要作用。调驱效果受许多因素的影响。注入速度是保证区块压力平稳、均衡上升的重要影响因素之一,注入速度过低时,会增加油田开发达到极限含水率的时间,成本也会进一步增加,注入速度过高,会造成储层部分孔隙堵塞,大大降低储层渗透率,最终导致调驱体系注入困难。同时,调驱体系可以作为驱替相改善水驱油的不利流度比,提高注入水驱油效率,最终达到提高水驱采收率的目的。因此,调驱体系粘度的大小,直接影响调驱的效果,而调驱体系的浓度是影响其粘度的一个重要因素。调驱体系注入量也会影响调驱效果,注入量若过小,难以达到封堵高渗透层的目的,注入量若过多,成本会随之增加。因此,在调驱措施前优选合理的调驱参数至关重要。

设计与实现:

1 驱方案代理模型

本文利用调驱历史数据库和LR、RF、XGBoostLightGBM机器学习算法建立调驱方案代理模型。数据如表1所示,该数据由油藏数据模拟数据及油田现场数据共同组成,共319口数据输入参数包括井组储量、孔隙度、渗透率、水平段长度或者直井垂度、渗透率极差、原油粘度、地层水矿化度、温度、地层压力、含水率、调驱体系类型、浓度、注入量、注入速度输出参数是井组半年增油量

表1 基础数据



在训练期间,调驱数据库的数据80%作为训练集,20%作为测试集,并利用R2、RMSE评价指标优选调驱方案代理模型。





图1 各模型全样本预测结果图





图2 各模型评价结果图

各模型预测效果如图1所示,各模型评价结果如图2所示。由于XGBoost模型的预测效果较好,本文选择它作为监督学习算法来构建代理模型。经过训练和调试,模型的最终RMSE值小于120,R2为0.95

2 基于DDPG的调驱方案参数优化模型

2.1.DDPG算法原理

DDPG 算法基于策略梯度与 DQN 算法,能够解决 Actor-Critic 在连续动作空间的问题,如图4所示。DDPG 的核心是使用一种随机的方法来探索好的行为,并估计一个确定性的行为策略(如式(1)所示)。在随机探索的加入一个噪声𝑁���������𝑡���������



(1)



(2)

DDPG 中的 Actor Critic 是由神经网络设计的。Actor 网络根据确定性策略梯度规则进行更新,而 Critic 网络则根据 TD 误差中获得梯度进行更新,如(3)式所示。



(3)

在式(3)中,为得到期望值,需要 Critic 网络在行动方面的梯度(w,r,t)以及 Actor 网络(w,r,t)和其它参数。DDPG 网络参数的更新规则,采用小批量(mini-batch)数据样本,通过最小化式(4)中的损失更新 Critic 网络,Actor 网络使用采样策略梯度更新,如式(5)所示:



(4)

其中:



(5)

而目标 Actor 网络和 Critic 网络的参数更新如式(6)(7)所示:



(6)



(7)

其中是更新参数,将其设置为τ ≪�������� 1



图4 DDPG算法原理

2.2. 基于DDPG的调驱方案参数优化模型的建立

本文从注水井角度来定义智能体,其可能的动作是改变调驱体系类型、浓度、注入量、注入速度的大小。根据选择的动作,观察状态是增油量、调驱体系类型、浓度、注入量、注入速度,DDPG方法中各要素如表2所示

3DDPG模型的详细优化流程。将模型的输出与优化目标进行比较,为动作分配一个奖励值。这个奖励作为一个反馈信号,让智能体了解在给定的状态下的该动作对目标是否有益,从而使智能体能够决定下一个作。

2—DDPG 元素



3基于DDPG 算法的调驱方案参数优化的伪代码流程



2.2.1. DDPG—环境

本文利用构建的调驱方案代理模型作为DDPG模型的环境代理模型的真正功能是模拟真实环境,并向 DDPG 智能提供相应的反馈。

2.2.2. DDPG—状态

状态空间为14,表示为

。在训练过程中,智能体观察它所处的当前状态,根据当前策略选择行动,在环境中执行后会相应地发生变化,然后预测相应的

从而输出一组新的状态。

2.2.3. DDPG—动作

动作空间为13,表示为

。由于操作约束,动作变量变化范围不得超过其最大值和最小值,各参数变量取值范围如表4所示。Actor 网络最后一层的激活函数为 tanh 函数,使得每一层的动作输出控制在[-1,1]之间,之后再根据公式(8)将神经网络输出按照动作边界等比例放大就可令 Actor网络输出的动作满足边界值约束。



(8)

式中,a表示Actor 网络中最后一层的tanh 函数输出的值,



分别表示tanh 函数输出值的最大值和最小值,即1和-1,a_表示按照动作边界等比例放大后动作的值,



分别表示实际动作的最大值、最小值。

4 —DDPG 模型动作范围



其中,0、1、2、3分别表示无体系、聚合物体系、凝胶体系、颗粒体系。

2.2.4. DDPG—奖励

本文根据智能体优化相对于优化前的井组半年累增油量变化率给出奖励。奖励函数如下:



(9)

其中,

智能执行动作策略后获得的井组半年累增油量

优化前的井组半年累增油量

2.2.5. DDPG探索策略

本文采用的behavior策略为带噪声的高斯策略, behavior 策略如图 5 所示。本文中初始方差σ=1,记忆池中数据达到上限后,开始学习。



图5 behavior 策略示意图

实验结果及分析:

本文选择了该区块井组增油量最小与最大两口同调驱效果的注水进行优化,基本数据如表6所示。调驱后1井组半年累增油量631.89 m³������,具有较大地优化空间。井2与各井连通性较好,且注入突进现象比较明显,调驱开始后井组2取得了一定的降水增油效果,半年井组累增油3563.00m³������

6 1、井2基础数据



1. 模型设置

在网络结构的设计中,Actor 网络(主网络和目标网络)和 Critic 网(主网络和目标网络)都包含1个隐藏层网络,每层神经元个数分别设置为 3060。经过反复实验调试, Actor网络学习率设置 0.001,Critic 网络学习率设置 0.002,训练回合设置为500每回合的最大时间步长数200,这意味着智能体在每回合中将进行200步的探索学习。

2. 结果分析

注水井1DDPG优化模型训练时奖励值变化曲线如图 6所示,它显示了智能体在每个回合中获得的奖励的变化曲线。well_1的总奖励在第50回合左右稳定下来,模型基本上已经学会了变量的组合,以最大化系统的整体奖励。在训练后期曲线仍有上下浮动趋势是因为动作探索过程引入了高斯策略,模型仍在不断探索潜在的更优策略。也正因如此,使得模型不易陷入局部最优解。

注水井1 DDPG模型训练时各参数变化曲线如图7所示。在没有给智能体任何先验知识的情况下,智能体在初始阶段采取的策略极难改进增油量,因此奖励价值相对较低。随着智能体的学习,增油量逐渐上升,其奖励价值也相应增加,且调驱方案参数均在其参数范围内





图6 well_1 DDPG训练时奖励值变化曲线 图7 well_1 DDPG训练时各参数变化曲线

注水井1DDPG优化模型测试时奖励值变化曲线如图 8所示,由于模型已开始测试应用,故不需再进行动作探索,DDPG驱方案参数优化模型的总奖励值在220回合后趋于稳定。即当 DDPG 深度学习模型稳定时,模型的总奖励值由一开始惩罚到奖励,不断迭代训练,最终趋于稳定。





图8 well_1 DDPG测试时奖励值变化曲线 图9 well_1 DDPG测试时参数变化曲线

注水井1 DDPG模型测试时各参数变化曲线如图9所示。well_1的初始增油量631.89 m³������,在第481回合智能获得了所有回合的最大值,值为6313.58 m³������,增油量增加了5681.69 m3。优化后调驱参数

值分别为30.056030.61280000030.28633.84197.03。优化后段塞体系类型发生改变,说明该地质条件下适合颗粒体系注入,而不适合用于凝胶体系。同时,优化后各段塞体系注入量与注入速度也有所变化,说明原调驱方案参数设置不合适,使得地层潜力未充分发挥。

注水井2的DDPG优化模型训练时奖励值变化曲线如图10所示,模型在第50回合左右奖励值大幅增加,说明此时模型已开始学习到如何采取动作可以获得更大的奖励注水2 DDPG模型训练时各参数变化曲线如图11所示,井2的初始增油量较大,智能体在训练过程中会有使增油量减小的动作,并在不断的与环境交互中尽量避免这个问题。





图10 well_2 DDPG训练时奖励值变化曲线 图11 well_2 DDPG训练时各参数变化曲线

注水井2DDPG优化模型测试时奖励值变化曲线如图12所示,参数变化曲线如图13所示, DDPG驱方案参数优化模型的总奖励值在300回合后趋于稳定。





图12 well_2 DDPG测试时奖励值变化曲线 图13 well_2 DDPG测试时参数变化曲线

优化后调驱参数

值分别为30.056030.6128000003127709.18197.036319.76,各参数优化后处在合理范围区间之内,且增油量增加了 2776.76 m3优化后段塞体系类型发生改变,说明该地质条件下适合颗粒体系注入,而不适合用于聚合物体系。尽管注水井2在未优化前就已取得不错的调驱效果,但经由DDPG模型优化后增油量仍大幅提高,验证了该模型优化同调驱效果的注水井均可取得不俗效果,具有较强的泛化能力。

结论:

1)本文利用DDPG算法建立的调驱方案参数优化模型可以通过优化调驱方案参数大幅提高注水井组增油量,对于油田开发具有重要意义。

2)本文利用DDPG算法建立的调驱方案参数优化模型,比较粒子群优化模型,针对同调驱效果的井组都能获得较高增油量的调驱方案,具有较强的寻优和泛化能力。

3)本文研究的调驱方案参数优化问题为离散动作问题,但DDPG算法针对于连续动作问题更具有优越性,未来,可考虑对该模型进行进一步完善,以实现对调驱施工参数,如排量、注入体系粘度等参数的实施监控与优化。

作者简介:

檀朝东,博士,教授,正高级工程师,博士生导师,信息科学与工程学院教师。主要从事检测技术与自动化装置、数据驱动理论与方法等教学和科研,致力于低碳智能油气田、油气生产物联网大数据和油气举升设备故障诊断的关键核心技术研究及应用。