Page 98 - 腐蚀与防护2024年第十一期
P. 98

王明达, 等: 城镇燃气管道腐蚀失效逻辑回归预测模型的构建与应用

                                                     集, 将数据导入阿里云 PAI平台, 利用逻辑回归二
                                                     分类算法进行预测模型构建, 云环境中整个可视化

                                                     建模的工作流如图8所示。










                图7 数据处理中的S Q L脚本

             Fi g .7 S Q Lscri p tin g indata p rocessin g
       第三步, 进行特征工程。特征工程指的是通过一
   系列方法将模型训练所需要的数据进行相应的处理,
   使得数据能在模型训练过程中发挥更好作用的过
   程 [ 20 ] 。由于逻辑回归模型的输入数据必须为double
   类型, 所以在本研究中首先通过类型转换组件将输入
   特征转换为 double类型, 然后使用过滤式特征选择
   组件, 利用信息熵和基尼系数来判断每个特征对于结
   果的影响。同时, 为了消除量纲对模型结果的影响,
                                                                    图8 可视化建模工作流
   需要进行无量纲化         [ 21 ] , 使不同规格的数据转换到统                       Fi g .8 VisualModellin gWorkflow


   一规格, 使用归一化组件将原始特征数值的范围映射                          3.2 模型效果评估指标
   到0~1 。                                                           [ 22 ] 和受试者操作特征( ROC ) 曲线
                                                       用混淆矩阵
       第四步, 利用云算法进行模型的训练和预测。                         评估模型的预测准确率。混淆矩阵可用来描述城镇
   使用拆分组件将数据集按照一定的比例拆分成训练
                                                     燃气管道失效的真实结果和预测结果之间的关联,
   集和测试集, 利用机器学习中的逻辑二分类组件训                           是评估预测模型性能的一种常用方法, 同时引入精
   练燃气管道失效预测模型, 设置模型训练的最大迭                                            值作为评价指标, 对模型的预测
                                                     准率、 召回率和F 1
   代次数 为 400 次, 模 型 训 练 成 功 后 将 其 保 存 到              效果进行评估。对于一个分类问题, 其结果一般有
   P MML中, PMML利用 XML描述和存储数据挖掘                       4种情况, 如表 3所示。

   模型, 在模型中可以看到逻辑回归方程中的相关变                                            表3 分类结果
   量如回归系数、 自由度等。将模型和测试集共同输                                       Tab.3 Classification results

   入预测组件, 进行失效结果预测。将燃气管道失效                                 分类            实际为正            实际为负
   的逻辑值定义为1 , 不失效的逻辑值定义为0 , 把概                            分类为正            真正 TP          假正 FP
   率 p=0.5作为管道是否失效的临界值, 若                 p>0.5           分类为负           假负 FN           真负 TN

   则被认为失效,                                             则准确率 A 的计算公式为
                p<0.5则被认为不失效。
       第六步, 进行模型评估, 本研究中使用混淆矩阵
                                                                        Σ ( n TP+ n TN )
   和二分类评估组件对模型进行共同评估。                                         A =                        )     ( 12 )
                                                                  Σ ( n TP+ n TN + n FN + n FP
  3 预测模型分析                                           式中: n TP  表示预测数据中结果为真正 TP的数据份
                                                            表示预测数据中结果为真负 TN 的数据份数;
                                                     数; n TN
   3.1 可视化工作流
                                                     n FN  表示预测数据中结果为假负 FN 的数据份数; n FP
     通过对2019~2021年燃气管道失效事故数据、                        表示预测数据中结果为假正 FP的数据份数。
   各大燃气公司平台内部数据以及有关国家标准进行                                 精准率P 的计算公式为
   指标分解, 拆分出燃气管道失效影响因素, 将得到
                                                                            Σn TP
                                                                    P =                        ( 13 )
   13102条样本数据组成试验数据集, 随机抽取70%                                           Σ ( n TP+ n FP )
   数据作为模型的训练集, 30%数据作为模型的测试                            召回率R 的计算公式为
    · 9 0 ·
   93   94   95   96   97   98   99   100   101   102   103