针对连铸板坯表面纵裂纹,基于连铸生产过程参数,利用大数据挖掘方法,提出了一种获取现场不同参数对结晶器传热单独影响的新方法,即生产参数独立影响(IPI)法。IPI方法包含数据预处理、交叉相关程度计算、主要相关参数检验、数据筛选和独立影响分析等5个环节,以实现从交互相关的连铸参数中找到参数的主要相关参数,从而分析各连铸参数对结晶器传热的独立影响规律。结果表明,除拉速、过热度、板坯宽度、结晶器锥度、结晶器总水流量等常规影响因素外,结晶器振动频率、结晶器液位、水口插入深度、塞棒位置以及不同位置吹Ar流量等均对结晶器热流有不同程度的影响。塞棒吹Ar流量、塞棒位置和水口插入深度均对结晶器传热有正向促进作用,而水口吹Ar流量、结晶器振动频率、结晶器总水流量主要表现为负向抑制作用。另外,对于水口吹Ar流量和结晶器总水流量而言,存在结晶器热流最大的拐点值,分别为3.5 L/min和8250~8750 L/min。
关键词:
连续铸钢作为一种主流的钢铁产品成型技术,已在世界范围内得到广泛应用。高的连铸比需要连铸车间提供质量更优的连铸坯以保证钢铁企业更高的经济效益。在所有的连铸坯缺陷中,铸坯表面裂纹占50%以上[1],因此减少连铸坯的表面纵裂纹发生频率成为控制铸坯质量的重中之重。连铸结晶器铜板与铸坯表面之间的传热控制着铸坯初生坯壳的生长,是影响裂纹源形成的重要因素[2,3]。因此,针对结晶器传热影响因素的研究有利于实现连铸生产精细化控制,从而服务于高品质钢的生产。
结晶器传热的影响因素包括原料成分和工艺参数[2,4]2个方面。对于特定的生产钢种,其钢成分与保护渣品种往往是对应的,此时采用经验控制的连铸操作参数就成为影响结晶器传热的主要因素,是造成传热波动甚至产生裂纹源的关键。针对不同连铸操作参数对结晶器传热的影响,前人主要从实验[5,6]、数值模拟[7~10]以及工业生产数据[11~14]3个方面展开研究。在实验研究和数值模拟研究方面,往往只是针对某个或部分参数进行研究,考虑的实验条件较为理想,与实际连铸生产多因素同时作用的情况有很大区别;而对于工业生产数据的分析,由于连铸参数之间存在交互相关的作用(一个参数的调整会导致其他参数也同步调整)且共同对结晶器传热产生影响,并且如保证其他参数均不变,有效样本将太少;故难以单独研究某一参数对结晶器传热的影响。目前尚缺乏一种排除其他参数的交互相关且单独研究某一参数对结晶器传热的独立影响规律的方法,从而缺少结晶器传热随某一参数的变化规律的理论指导;同时,现有研究也未针对不同连铸工艺参数对结晶器传热影响强度进行定量对比,使得根据参数对结晶器传热的影响程度大小来选择最佳生产参数变得困难。近年来,数据挖掘方法的使用使得从海量的原始数据中发现有用数据变得容易,目前已在冶金[15,16]及材料[17]领域有广泛应用,但利用数据挖掘方法针对连铸参数对结晶器传热影响规律的研究还鲜见报道。因此,可尝试引入数据挖掘方法针对操作参数对结晶器传热的独立影响规律进行研究,从而为结晶器传热机理方面的全面系统研究以及精准控制打下基础,对材料生产过程中的类似问题也具有重要的参考意义。
本工作利用实际冶金生产大数据,引入大数据挖掘相关方法对结晶器传热影响因素进行系统分析。首先,针对原始数据库的异常值和缺失值进行处理,获得经过预处理的数据库;然后,在Spearman相关性分析方法初步判断连铸工艺参数交叉影响的基础上,利用双重检验方法(即Tukey-Duckworth检验[18]和Wilcoxon秩和检验[19]相结合)得到各连铸工艺参数的主要相关参数,并通过确定主要相关参数的限定域得到各连铸工艺参数与结晶器热流的数据集(最大程度降低其他参数对特定分析参数的影响)。最后,基于新得到的数据集,通过箱线图、回归拟合及Spearman等方法研究结晶器传热的变化规律。本工作将上述所提方法称为生产参数独立影响(independent process influence,IPI)法,并以此挖掘各生产参数对某一指标相对独立的影响规律。通过该方法对结晶器传热的影响规律进行挖掘,可为实际生产过程中连铸参数的调整提供新的指导角度,从而有助于连铸生产的精细化控制。
1实验方法
图1为IPI方法的计算流程图,包含数据预处理(date preprocessing)、交叉相关程度计算(calculation of cross-correlation level)、主要相关参数检验(main related parameters testing)、数据筛选(data filtering)和独立影响分析(analysis of independent influence) 5个环节。其中主要相关参数检验环节针对各变量检验除自身以外的其他变量对其的交互作用,从而获得各连铸参数的主要相关参数;在此基础上,对各变量的主要相关参数应用限定域的数据筛选方法将其限定在阈值范围内,从而得到分析变量与因变量的独立影响数据集;最后研究各变量对因变量的独立影响。本工作采用开源统计分析软件R语言实现各环节的计算。
图1
图1生产大数据的独立参数影响(IPI)法计算流程图
Fig.1Calculation flowchart of the method for independent process influence (IPI) with big data in production process
1.1数据预处理
首先,通过工业大数据平台获得连铸生产现场的各实时参数并储存至数据库。但是,连铸生产中会遇到由于漏钢而引起停浇或生产计划调整的情况,从而在某些参数上表现为异常值或缺失值;另一方面,采集设备的不稳定性以及生产环境同样会引起数据的异常值,故首先需要对原始数据集进行异常值剔除。本工作选取数据库中某一典型低碳钢(C含量为0.05%,质量分数)钢种在一段时间内的生产数据进行研究。由于采用的保护渣为同一批次保护渣,故不考虑保护渣对结晶器传热的影响。根据数据库实际自动采集数据的情况及可能对传热有影响的参数,考虑的连铸参数包括:拉速(casting speed)、水口插入深度(immersion depth of nozzle)、结晶器液位(mold level)、振动频率(oscillation frequency)、板坯宽度(slab width)、塞棒位置(position of stopper)、塞棒吹Ar流量(argon blowing flow rate in stopper)、水口吹Ar流量(argon blowing flow rate in nozzle)、保护Ar气流量(argon blowing flow rate in sliding plate)、过热度(superheat)、结晶器总水流量(total water flow rate)和结晶器锥度(mold taper)共计12个影响因素。为便于表述,在下文中分别用Qstopper、Qnozzle和Qshield表示塞棒吹Ar流量、水口吹Ar流量和保护Ar气流量。首先,对各参数含有缺失值的样本进行剔除,即一旦某一样本中某个参数存在缺失值的情况就需要对整个样本进行剔除。箱线图是用来观察数据的整体分布情况的一个有效工具,同时也被广泛用于数据预处理中的异常值识别[20,21]。因此本工作还对各参数通过箱线图方法进行检验,将位于箱线图中上下边界以外的值判定为异常值,对于包含异常值的样本需要对整个样本进行剔除。经过以上方法,最终共得到10286个有效样本。
1.2交叉相关程度计算
为了研究连铸生产单一因素对结晶器平均热流的独立影响,需要明确连铸参数自身的相互关系。相关系数是衡量2个变量之间相关程度大小的重要参数,常用的相关系数包括Pearson相关系数、Spearman相关系数以及Kendall相关系数。选用何种相关系数,往往视数据分布情况而定。对于变量是连续正态分布的情况,采用Pearson相关系数较为合理;而对于变量是非正态分布的情况,采用Spearman相关系数更为合理[22]。本工作应用分位数-分位数(Q-Q)图来直观地检验参数的正态性。图2为12个连铸参数各自的正态性检验结果。图中横轴表示标准正态分布的分位数(expected normal value),而纵轴表示需要检验参数数据集的实际分位数(actual sample value);当标准正态分布的分位数与实际数据的分位数在一条直线上时,则该参数数据分布服从正态分布。结果表明,绝大部分参数的数据点并不位于一条直线上,即这些连铸参数的数据分布不严格服从正态分布。故采用Spearman相关系数计算连铸参数的相关性系数对连铸参数之间的交叉影响进行预检验。对于变量X和Y的N个原始样本数据对(Xi,Yi) (i= 1, 2, 3, …,N),xi为Xi在变量X的样本值中的秩次(即变量X的样本值经从小到大排列后Xi的序数),yi为Yi在变量Y的样本值中的秩次,故变量X与Y的Spearman相关系数可通过
图2
图2各连铸参数数据的分位数-分位数(Q-Q)图
Fig.2Quantile-quantile (Q-Q) plots of each continuous casting parameter
(a) casting speed (b) immersion depth of nozzle (c) mold level
(d) oscillation frequency (e) slab width (f) position of stopper
(g) argon blowing flow rate in stopper (Qstopper)
(h) argon blowing flow rate in nozzle (Qnozzle)
(i) argon blowing flow rate in sliding plate (Qshield)
(j) superheat (k) total water flow rate (l) mold taper
式中,ρ为变量X和Y的Spearman相关系数;di为Xi和Yi的秩次之差xi-yi。
图3
图3各连铸操作参数Spearman相关系数热图
Fig.3Heat map of the Spearman correlation coefficients between different continuous casting parameters
1.3主要相关参数检验
对于某一连铸参数而言,在其与众多连铸参数之间存在交互作用的情况下,如果对所有与该参数存在相关性的变量范围进行控制,将会导致最终分析的样本量较少,缺乏统计意义。因此,可筛选出与待分析变量关系较为明显的变量作为主要相关参数,从而只针对主要相关参数的变化范围进行限定,研究待分析变量对因变量结晶器传热的独立影响。由于Spearman相关系数对变量之间的非单调关系不敏感且会由于阈值的选择而导致在确定主要相关参数时产生人为误差,在统计学中,通常可用双变量独立性检验方法判断两参数之间有无明确关系。常规的双变量独立性假设检验方法对数据的分布及连续性有要求,而对于连铸生产数据集,各参数的数据分布未知且某些参数离散分布,无法用常规的假设检验方法进行分析。前人应用Tukey-Duckworth和Wilcoxon秩和检验的双重检验方法[23]针对自变量与因变量之间有无确定关系进行了研究,且有较好的应用效果。由于Tukey-Duckworth和Wilcoxon秩和检验为非参数假设检验方法,对于非正态分布数据有较好的适应性,本工作尝试利用此多重检验方法研究连铸操作自身(自变量)之间的关系,以确定各连铸参数的主要相关参数。
1.3.1 Tukey-Duckworth假设检验
Tukey-Duckworth假设检验[18]是一种对数据分布无要求的非参数检验方法,被用于检验2组数据是否来自于同一总体。对于目标变量Y,要检验潜在影响变量X与其是否有显著关系,首先需要对变量(X,Y)的观测值(xi,yi)(i= 1, 2, …,m)按yi进行排序;随后根据排序后的yi选取相同数量n的2个极端(较小值和较大值)的观测值,分别归类为B和W;针对得到B和W 2类样本按xi大小进行排序得到分类样本的序列:
式中,v(i)表示分类标签B或者W。
同时得到xi排序之后的序列:
故终结计数s可由下式得到:
式中,
1.3.2 Wilcoxon秩和检验
在Tukey-Duckworth假设检验的基础上,对得到的影响较为重要的变量进一步利用Wilcoxon秩和检验[19]方法进行检验,筛选出与分析变量相关性不明显的变量。作为一种非参数检验方法,当数据集变量的正态分布假设不确定时,该方法用于2组样本是否有显著差异的检验效果较好。根据
本工作借鉴Tukey-Duckworth检验及Wilcoxon秩和检验2种检验方法相结合的双重检验方法,可最大限度地排除连铸各参数原始数据分布对检验结果的影响,筛选出真正对分析参数有影响的主要相关参数。
1.4限定域确定
在确定各连铸参数的主要相关参数之后,需要将各参数的主要相关参数值确定在一定范围或设为一定值,相比对其他所有参数都进行限定,能得到更多有效的样本。若设定的变化区间太窄,最终得到的样本量较少,结果也不具有统计意义;若设定参数变化区间太宽,则达不到参数控制的目的。为满足上述2点的分析需求,本工作根据各变量原始参数值所在区间来确定其变化区间,同时设定参数变化的范围在参数所选基准值的10%以内,故各相关变量限定域可由
式中,Lcon为参数控制带的下限;Ucon为控制带的上限;X0为参数控制带的基准值;Xmax和Xmin分别为各参数在数据集中最大值和最小值。
1.5独立影响分析方法
在得到各变量经限定域筛选过后的数据集之后,可分析结晶器传热的独立变化规律,分为各连铸参数对结晶器热流的独立影响规律以及各参数对结晶器热流影响强度大小的比较2个方面。根据连铸参数自身的分布特性,对于非连续分布的连铸参数,利用箱线图比较结晶器传热随连铸参数的变化规律;而对于连续分布的连铸参数,采用回归拟合的方法分析其对热流的影响。同时,利用Spearman相关系数计算方法可得到各连铸参数与结晶器传热之间的独立相关性大小,从而对比不同连铸参数对结晶器传热的影响强度。
2实验结果与讨论
利用1.3节中提到的双重检验方法筛选得到各参数的主要相关参数;同时根据
表1各连铸参数的主要相关参数
Table 1
连铸生产中通常用结晶器平均热流密度和不同位置下瞬时热流密度来反映结晶器传热量的大小。因平均热流密度易于获得,且能较为简便地反映结晶器综合传热情况,因此选用平均热流密度进行分析,计算公式如下:
式中,q为某一结晶器面的平均热流密度,W/m2;ρw为冷却水密度,kg/m3;w为冷却水流量,m3/s;cp为水比热容,J/(kg·℃);ΔT为冷却水进出水温差,℃;A为结晶器铜板传热面积,m2。
表2给出了结晶器各面平均热流之间的Spearman相关系数。可以看出,结晶器各面平均热流之间有较强的相关性。同时,还计算了各面平均热流与结晶器各面平均热流均值之间的关系(计算公式见
表2结晶器各面平均热流Spearman相关系数
Table 2
结果表明,各连铸参数与结晶器热流的相关系数均有所差别,有正有负,代表着参数对结晶器传热为主要促进或主要抑制作用。通过对比连铸参数对结晶器热流影响规律以及各参数对结晶器热流影响程度的大小,可发现2者有很好的对应性。在上述参数控制区间内,拉速、过热度、塞棒吹Ar流量、塞棒位置、水口插入深度在一定程度上对结晶器热流有主要正向促进作用;而水口吹Ar流量、结晶器振动频率、结晶器总水流量则对结晶器传热有主要抑制作用;结晶器锥度、保护Ar气流量、板坯宽度和结晶器液位等参数,对结晶器的总体传热影响不大。
表3中相关系数的绝对值表示各参数与结晶器各面平均热流均值之间Spearman相关系数的绝对值,该值越大,则表明参数对结晶器的传热影响程度越大。可见,拉速和过热度对结晶器热流影响最大,是结晶器传热的主要控制因素,在生产过程中需要重点关注;当拉速和过热度一定时,其他参数的不稳定性可能是导致结晶器热流产生波动的原因,故在对其他连铸参数进行调控时应当注意其对结晶器传热的影响,尤其应当注意塞棒吹Ar流量、水口吹Ar流量、塞棒位置、振动频率、结晶器总水流量以及浸入式水口插入深度的控制。同时还发现,结晶器锥度、保护Ar气流量、板坯宽度和结晶器液位几个连铸参数的调节对结晶器传热的影响不大(|ρ|低于0.1),因此在实际生产中进行调控时可先不考虑其对结晶器热流的影响,不过需注意其变化对热流波动的影响从而可能导致纵裂纹的发生。以上结论是基于某厂现场某时间段的生产大数据,并通过本工作所提的IPI新方法得到的,在针对其他工况或生产条件时需注意其适用性,最好利用IPI方法重新计算以获得更为准确的变化规律。该方法也可用于研究生产大数据中同类参数的变化规律。
3结论
(1) 针对参数交互相关的连铸生产大数据,提出了单一参数对某对象影响规律的分析方法,即生产参数独立影响法(IPI)。利用该方法分析得到12个连铸工艺参数对结晶器热流的独立影响规律以及不同参数对结晶器热流的影响强度。研究发现,除了拉速、过热度、板坯宽度、结晶器锥度、结晶器总水流量等常规影响因素外,结晶器振动频率、结晶器液位、水口插入深度、塞棒位置以及不同位置吹Ar流量等均对结晶器热流有不同程度的影响。
(2) 拉速和过热度对结晶器热流影响强度最大,其次是塞棒吹Ar流量、水口吹Ar流量、结晶器总水流量、塞棒位置、振动频率和水口插入深度,而结晶器液位、板坯宽度、结晶器锥度以及保护Ar气流量对结晶器传热影响程度相对很小。并且,拉速、过热度、塞棒吹Ar流量、塞棒位置、水口插入深度主要表现为正向促进作用;而水口吹Ar、结晶器振动频率、结晶器总水流量主要表现为负向抑制作用。
(3) 基于所研究参数区间,结晶器热流随着结晶器总水流量增大先增大然后减小,并在8250~8750 L/min时达到相对最大值;随着水口吹Ar流量增加先增大然后减小,当水口吹Ar流量为3.5 L/min时达到相对最大值。
来源--金属学报