Page 98 - 腐蚀与防护2024年第十一期

P. 98

王明达, 等: 城镇燃气管道腐蚀失效逻辑回归预测模型的构建与应用

集, 将数据导入阿里云 PAI平台, 利用逻辑回归二
分类算法进行预测模型构建, 云环境中整个可视化

建模的工作流如图8所示。

图7 数据处理中的S Q L脚本

Fi g .7 S Q Lscri p tin g indata p rocessin g
第三步, 进行特征工程。特征工程指的是通过一
系列方法将模型训练所需要的数据进行相应的处理,
使得数据能在模型训练过程中发挥更好作用的过
程 [ 20 ] 。由于逻辑回归模型的输入数据必须为double
类型, 所以在本研究中首先通过类型转换组件将输入
特征转换为 double类型, 然后使用过滤式特征选择
组件, 利用信息熵和基尼系数来判断每个特征对于结
果的影响。同时, 为了消除量纲对模型结果的影响,
图8 可视化建模工作流
需要进行无量纲化 [ 21 ] , 使不同规格的数据转换到统 Fi g .8 VisualModellin gWorkflow

一规格, 使用归一化组件将原始特征数值的范围映射 3.2 模型效果评估指标
到0~1 。 [ 22 ] 和受试者操作特征( ROC ) 曲线
用混淆矩阵
第四步, 利用云算法进行模型的训练和预测。评估模型的预测准确率。混淆矩阵可用来描述城镇
使用拆分组件将数据集按照一定的比例拆分成训练
燃气管道失效的真实结果和预测结果之间的关联,
集和测试集, 利用机器学习中的逻辑二分类组件训是评估预测模型性能的一种常用方法, 同时引入精
练燃气管道失效预测模型, 设置模型训练的最大迭值作为评价指标, 对模型的预测
准率、召回率和F 1
代次数为 400 次, 模型训练成功后将其保存到效果进行评估。对于一个分类问题, 其结果一般有
P MML中, PMML利用 XML描述和存储数据挖掘 4种情况, 如表 3所示。

模型, 在模型中可以看到逻辑回归方程中的相关变表3 分类结果
量如回归系数、自由度等。将模型和测试集共同输 Tab.3 Classification results

入预测组件, 进行失效结果预测。将燃气管道失效分类实际为正实际为负
的逻辑值定义为1 , 不失效的逻辑值定义为0 , 把概分类为正真正 TP 假正 FP
率 p=0.5作为管道是否失效的临界值, 若 p>0.5 分类为负假负 FN 真负 TN

则被认为失效, 则准确率 A 的计算公式为
p<0.5则被认为不失效。
第六步, 进行模型评估, 本研究中使用混淆矩阵
Σ ( n TP+ n TN )
和二分类评估组件对模型进行共同评估。 A = ) ( 12 )
Σ ( n TP+ n TN + n FN + n FP
3 预测模型分析式中: n TP 表示预测数据中结果为真正 TP的数据份
表示预测数据中结果为真负 TN 的数据份数;
数; n TN
3.1 可视化工作流
n FN 表示预测数据中结果为假负 FN 的数据份数; n FP
通过对2019~2021年燃气管道失效事故数据、表示预测数据中结果为假正 FP的数据份数。
各大燃气公司平台内部数据以及有关国家标准进行精准率P 的计算公式为
指标分解, 拆分出燃气管道失效影响因素, 将得到
Σn TP
P = ( 13 )
13102条样本数据组成试验数据集, 随机抽取70% Σ ( n TP+ n FP )
数据作为模型的训练集, 30%数据作为模型的测试召回率R 的计算公式为
· 9 0 ·

93 94 95 96 97 98 99 100 101 102 103