Page 98 - 腐蚀与防护2024年第十一期
P. 98
王明达, 等: 城镇燃气管道腐蚀失效逻辑回归预测模型的构建与应用
集, 将数据导入阿里云 PAI平台, 利用逻辑回归二
分类算法进行预测模型构建, 云环境中整个可视化
建模的工作流如图8所示。
图7 数据处理中的S Q L脚本
Fi g .7 S Q Lscri p tin g indata p rocessin g
第三步, 进行特征工程。特征工程指的是通过一
系列方法将模型训练所需要的数据进行相应的处理,
使得数据能在模型训练过程中发挥更好作用的过
程 [ 20 ] 。由于逻辑回归模型的输入数据必须为double
类型, 所以在本研究中首先通过类型转换组件将输入
特征转换为 double类型, 然后使用过滤式特征选择
组件, 利用信息熵和基尼系数来判断每个特征对于结
果的影响。同时, 为了消除量纲对模型结果的影响,
图8 可视化建模工作流
需要进行无量纲化 [ 21 ] , 使不同规格的数据转换到统 Fi g .8 VisualModellin gWorkflow
一规格, 使用归一化组件将原始特征数值的范围映射 3.2 模型效果评估指标
到0~1 。 [ 22 ] 和受试者操作特征( ROC ) 曲线
用混淆矩阵
第四步, 利用云算法进行模型的训练和预测。 评估模型的预测准确率。混淆矩阵可用来描述城镇
使用拆分组件将数据集按照一定的比例拆分成训练
燃气管道失效的真实结果和预测结果之间的关联,
集和测试集, 利用机器学习中的逻辑二分类组件训 是评估预测模型性能的一种常用方法, 同时引入精
练燃气管道失效预测模型, 设置模型训练的最大迭 值作为评价指标, 对模型的预测
准率、 召回率和F 1
代次数 为 400 次, 模 型 训 练 成 功 后 将 其 保 存 到 效果进行评估。对于一个分类问题, 其结果一般有
P MML中, PMML利用 XML描述和存储数据挖掘 4种情况, 如表 3所示。
模型, 在模型中可以看到逻辑回归方程中的相关变 表3 分类结果
量如回归系数、 自由度等。将模型和测试集共同输 Tab.3 Classification results
入预测组件, 进行失效结果预测。将燃气管道失效 分类 实际为正 实际为负
的逻辑值定义为1 , 不失效的逻辑值定义为0 , 把概 分类为正 真正 TP 假正 FP
率 p=0.5作为管道是否失效的临界值, 若 p>0.5 分类为负 假负 FN 真负 TN
则被认为失效, 则准确率 A 的计算公式为
p<0.5则被认为不失效。
第六步, 进行模型评估, 本研究中使用混淆矩阵
Σ ( n TP+ n TN )
和二分类评估组件对模型进行共同评估。 A = ) ( 12 )
Σ ( n TP+ n TN + n FN + n FP
3 预测模型分析 式中: n TP 表示预测数据中结果为真正 TP的数据份
表示预测数据中结果为真负 TN 的数据份数;
数; n TN
3.1 可视化工作流
n FN 表示预测数据中结果为假负 FN 的数据份数; n FP
通过对2019~2021年燃气管道失效事故数据、 表示预测数据中结果为假正 FP的数据份数。
各大燃气公司平台内部数据以及有关国家标准进行 精准率P 的计算公式为
指标分解, 拆分出燃气管道失效影响因素, 将得到
Σn TP
P = ( 13 )
13102条样本数据组成试验数据集, 随机抽取70% Σ ( n TP+ n FP )
数据作为模型的训练集, 30%数据作为模型的测试 召回率R 的计算公式为
· 9 0 ·