注塑成型工艺的虚拟量测
背景调研
由于环境可能会导致系统状态迁移,产品有异常。需要人工参数调整。
注塑成型工艺的虚拟量测
目标
以大数据方法感知不良产品,针对成型工艺品质异常尺寸超规问题进行虚拟量测。
不仅能预测正常情况下的尺寸,非正常情况下的也要能预测出来。
要关注故障率。
猜测
1、关注异常产品与非异常产品,看特征与尺寸是否有明显的关系。
猜想1 非异常产品与特征有工艺内在物理关系,可线性表示。异常则不完全受工艺内在物理关系影响,存在小部分随机性,使用非线性特征进行建模。
检测猜想1 首先需要标注数据集正负样本。分别观测正样本与负样本与其他特征的关系,并输出每个size与所有特征的高相关性特征,进行特征的初步分析,设计建模方案。
猜想2 注塑工艺有几个阶段,需要分开进行特征统计,查看不同注塑阶段下是否特征会有不一样的影响,精细化建模。
检测猜想2 需要深入了解注塑工艺
解决步骤
1、理解特征
进行特征探查
理解三个数据集间的组合关系 - > 构建数据集
①考虑时域特征的提取:了解工艺场景与工艺基本原理,设计特征构建与组合方案
③是否不同工艺环节下特征影响度不一致,需要分几个阶段建模?
2、特征选取
使用合适的方案进行特征筛选
①参考现有工艺注塑场景下建模是否有特定的特征选取方案?
②传统特征选取方案 使用xgb或者rf选取特征(与建模挂钩,迭代)
③去冗余特征:1 缺失值过多的 2 相关性太弱的(皮尔逊相关性系数或者使用集成学习算法选择贡献度极低的) 去掉要记录(解释)
3、异常值处理
①如何识别真正的异常值与受外界影响下产生微弱偏差的异常数据(可用建模)?(难)
②选择合理的异常值处理方案:参考现有工艺场景下的去异常值思路与观测的正负样本下数据分布设计异常值处理方案。
4、建模方案
初步思路:假设数据已做好特征筛选
①基线方案对比:直接用lgb +高频特征的mean建模(微信公众号方案作为基线比对)
②比对其他基础集成学习算法:rf、xgb
③若size1、size2、size3中有高相关特征 高相关的放一起建模
④size1、size2、size3三个一起建模 多输出任务
⑤正负样本分开建模
⑥不同注塑阶段数据分开建模
任务规划:
5.12 阅读论文 理解特征 组装数据集 探索正负样本分布
5.13 特征选择 + 异常值处理
5.14~5.16 建模 迭代优化
5.19之前 完成报告
调研
参考1面向制造过程的虚拟量测技术综述与展望
工业过程通常采取物理检测方式对产品进行质量检验,属于离线破坏性试验且检测成本高昂,检测结果无法及时指导生产。虚拟量测通过对生产过程数据进行监控、对产品品质或工艺进行预判,能够将传统离线且具延迟特性的品质抽检改成线上且即时的品质全检。
工业过程中的流程缺陷、环境颗粒物、工艺波动等都有可能导致产品出现批量缺陷,目前常采取的物理检测方式属于离线破坏性试验、需要专用检测仪器( 检测成本高昂) 且存在较大滞后性; 再者,由于传感器能力有限,无法直接测量部分工艺参数,导致检测结果无法及时指导生产、造成资源浪费、无法保障全流程产品质量。虚拟量测技术作为实现“零缺陷制造”的强有力手段,能够帮助企业对生产过程进行严格把控,对工业过程参数进行全面监控和分析、及时发现和排除可能导致产品缺陷的因素,进而有效地降低产品的缺陷率并提高产品良率。
数据预处理
工业数据具有高维非线性、大数据小样本等特点,难以直接应用。数据预处理是对数据进行分析、过滤、转换和编码的方法,使算法能够容易地解释数据的特征,提高质量估计的准确性。
异常值去除
异常值是位于预测分布之外的异常数据,如果预测时将其考虑在内,则会降低预测精度。从数据集中识别和消除它们是虚拟量测领域备受关注的预处理技术。其中最基本和最广泛使用的方法是手动异常值识别,但该方法只能离线使用,对虚拟量测的应用造成了严重限制。基于统计的方法是一个直接有效的在线方法。(考虑使用dbscan去噪/去掉偏离中心值较大的数)
降维
降维是将特征空间从高维空间改变为低维空间,同时最大范围地保留有用信息的过程。由于高位特征空间存在维数高和计算复杂这两个棘手问题,因此使用高维特征空间不利于虚拟量测的应用。另外,保留与输出无关的属性可能会降低模型的整体功效。主成分分析( PCA) 和偏最小二乘( PLS) 是常用的降维方法,但它们都受到线性假设的限制,亟需非线性算法的弥补。特征选择通过去除冗余或不相关特征来达到降维的目的。
预测建模
第一类最常用的预测算法是线性回归算法,一方面它们耗时短、复杂度低、计算效率高、抗噪能力强; 另一方面,存在精度低、在非线性问题中可能不稳定的问题。第二类常用的预测算法是神经网络类算法,包括多层感知器(MLP) 、卷积神经网络(CNN)、递归神经网络(RNN)、贝叶斯神经网络( BNN) ,已广泛应用于半导体制造领域,如 CVD 工艺中的故障分类诊断、晶圆表面检测、二维数据VM模型、不平衡数据集上的晶圆缺陷识别、IC布局补偿建议等。贝叶斯方法、随机森林、逐步回归方法以及基于树的方法也被证明适用于虚拟量测系统的改进。
参考2注塑工件表面缺陷检测智能算法研究与实现
图像识别,作为分类问题进行处理。数据预处理做了数据集扩充处理。
参考3塑料注射成形过程稳定性的智能监测方法
首先通过人工特征提取的方法,提取注塑过程中的特征值,并通过相关性分析,获得了筛选出与尺寸相关性较高的特征。进一步,提出采用稀疏自编码和主成分分析两种方法进行了降维处理,从采集的过程数据中提取出能够度量产品波动的特征值,得到降维后数据在各个维度所占权值,获得可作为稳定性判定依据。通过机台和产品状态进行同步监测,对两种降维方法效果进行了对比,实验结果显示主成分分析降维方法的效果略优于稀疏自编码效果。
在特征提取的基础上,建立了 KNN 和 LSTM 神经网络的两种成形过程稳定性分析方法,并在 Python 环境下实现了该方法。通过 170 个样本的基于成形过程数据的稳定性分析与质检结果的对比发现,对不同工艺组的产品尺寸进行预测时,不同组的尺寸有明显差异,对不稳定状态进行识别中,LSTM 神经网络的状态识别精度高于 KNN算法,但组内样本预测精度均存在一定偏差,受制于传感器精度,导致了同一工艺条件下机台波动导致的尺寸差异难以区分的结果。
背景
在注塑成形过程中,由于受到各种因素影响,模具内部塑料状态不得而知,只能通过注塑机上的注塑时间、V/P 切换压力、螺杆位移、峰值压力等参数间接判断成形质量的稳定性。传统的质检方法,需在产品从模具取出送检之后,才能通过检测结果判断产品质量,人力成本大,设备成本高,效率低,反馈不及时,投入大量的人力物力用于质量检测,严重影响企业的生产效率。(特征分析)
历史方案分析
传统的 PCA方法能从庞大的原始数据中,剔除冗余信息,抽取主要的核心变化信息,有效地降低数据维度来描述原来的过程状态,这种方法取代了传统的单变量统计过程控制,在现代工业过程控制生产中发挥了重要作用。但PCA数据提取和数据降维过程是在同一时间维度上完成,而复杂工业过程,例如精密注塑过程是多尺度的间歇过程,获得的建模原始数据通常是三维矩阵,而过程变量值随时间在不断变化之中,单纯的PCA方法就不太适用。
由于注塑成形工艺是一个典型的多时段间歇过程,包括塑化、计量、合模、注射、保压、冷却等步骤,将一个完整模次的所有操作数据折合成一个数据样本分析,这样的处理很难发现模次内部每一个小的子时段数据的特征及过程内部相关关系的变化。
结合人工神经网络的优势,可以建立起采集参数与产品质量之间的映射模型,实现对注塑质量更高精度的控制。
项目意义
不能采用传统工艺人员经验性判断方法来辨别产品质量,运用专业的高精度测量设备则需耗费大量人力资源和时间,重复性工作量大,自动化程度低。本课题通过对注塑过程中注塑机台上过程数据的采集,进一步分析注塑机的工作状态判断产品的质量,减少企业的日常生产质检工作量,对工业上的注塑生产自动化实践具有较大的指导意义。
研究步骤
(1)课题的背景及意义,分析调研了目前国内外注塑产品在生产过程中质量预测
方法和研究现状;
(2)研究了注塑机过程数据(对应高频特征)的特点,FANUC 型号注塑机台过程数据的采集方法及采集数据选择;
(3)研究了采集数据标准化和白化过程,以及稀疏自编码将处理和主成分分析对采集原始数据进行降维的方法,并将两种降维方法进行了比较;
(4)根据工艺经验提取了影响产品质量的特征量,通过线性相关性分析和非线性相关分析,寻找影响产品质量的主要因素,并通过监控特征值与初始状态特征值的变化,来监控产品质量。
(5)根据注塑过程数据的特点,提出了基于 KNN 和 LSTM 神经网络的特征提取分析方法,阐述了 KNN 和 LSTM 神经网络的结构特点和各自优势,实现两种分析模型。通过设计不同条件下的注塑实验,采集相应的过程参数,分别用 KNN和 LSTM 神经网络对降维后数据进行稳定性分析及质量预测,并将两种方法进行对比验证。
注射成形过程的数据采集方法 (对应高频数据)
采集注塑机的压力曲线、螺杆位移曲线、螺杆速度曲线和扭矩曲线数据信息,用于后续对注塑状态进行分析。(数据来源)
基于人工特征提取的注塑机台状态分析
方法:Pearson 相关系数分析、最大信息系数
根据注塑工艺的经验,选择以下 15 个特征:射压峰值,注射段压力积分,注射段螺杆位移,保压压力,VP 切换位置,计量扭矩积分,塑化时间,逆流积分,注射压力动态标准差,注射压力静态标准差,螺杆位移动态标准差,螺杆位移静态标准差,螺杆速度标准差,计量扭矩动态标准差,计量扭矩静态标准差。
整个注塑阶段分为两部分,以保压结束为分割点,注射和保压过程为动态过程,冷却、塑化为静态过程。为了比较各个提取特征对产品质量的影响大小,分别计算提取特征与产品尺寸的线性相关系数及非线性相关系数,进而筛选出主要影响因素。
稳定性分析流程图所示,机台经过试模调机后开始正常生产,这时的机台状态为初始状态。在后续的生产中,读取机台数据及质检数据,对原始数据进行预处理。预处理包括空值处理、异常值处理、时间对齐等操作。
后对处理后的数据提取特征值及特征值的统计量,用标准化后的欧式距离判断当前模次与初始状态模次的差异,其中sk表示方差。如果不同模次之间特征值的欧氏距离差异小,则说明当前模次稳定,如果差异大则说明当前模次不稳定。
为了衡量各个特征值对产品尺寸的影响大小,分别对提取的特征与检测的尺寸数据进行线性相关分析和计算最大信息数来判断非线性相关性分析。
最终,实验以相关系数 0.4 作为指标,认为大于 0.4 的特征值是影响产品尺寸的主要因素,结合线性相关和最大信息数结果,选取射压峰值、注射段积分、计量扭矩积分、注射压力静态标准差、螺杆位移动态标准差、螺杆速度动态标准差共 6 个特征。
异常值检测(?)
选取第一个测试样本的过程曲线及边厚尺寸为参考值,计算其他样本过程曲线相关性高的 6 个特征与第一个样本的的欧式距离,以及后续模次与第一模次边厚尺寸差的绝对值。
从结果可以看出,前10个样本和最后4个样本,欧式距离与边厚差值都相对较小,说明此时的生产过程相对稳定,而第 11 个样本到 22 个样本,欧式距离和边厚差值都有着较大的变化,此时的生产过程是不稳定的过程。在实际应用中,可选取当边厚尺寸超过控制范围时对应欧氏距离的值作为控制指标,来监控注塑的生产过程。
主成分分析
是一种常见的数据分析方法,其最重要的应用使将原始数据进行降维简化,提取出数据中的主要特征,保留大部分方差信息,去掉多余信息,保持主成分变量之间的正交性,能够发现原始数据背后特征,进行数据压缩提取的有效方法,在数据处理、过程监测、数据挖掘等多个领域得到了广泛应用。基于 PCA 的故障检测方法,本质上将是将过程数据投影到主成分子空间(PCS)和残差子空间(RS)这两个正交子空间上,然后分别在相应子空间上求解过程运行情况。
本环节使用稀疏自编码和主成分分析降维方法,从采集的过程数据中提取出能够度量产品波动的特征值,得到降维后数据在各个维度所占权值,这些降维后的数据可以作为稳定性判定依据,对生产周期中的机台和产品状态进行监测。
建模尝试
使用knn近邻(分类任务)
Lstm神经网络搭建
于 LSTM 神经网络属于有监督的训练方式,需要将所有数据分为测试数据和训练数据两组,然后按照以下顺序构件神经网络进行训练:
(1)超参数设置。采用梯度下降算法优化神经网络时,需要设置超参数确定深度
神经网络的架构,包括学习速率、神经网络层数、迭代次数、正则化参数等。
(2)状态初始化。通过随机函数对神经网络的权值矩阵和偏置值初始化。
(3)输入值预处理。将输入输出值标准化处理后,将数据分为训练和测试。如果每个样本的采样点过多可以采用主成分分析等降维方法减少采样点个数从而减少训练时间。
(4)损失函数计算。选择交叉熵为损失函数,计算实际输出向量与理论输出向量间的误差,并引入 L2 正则化防止过拟合。
(5)梯度下降。通常选择 Adam 优化器,通过梯度值对权重矩阵和偏置值进行更新。
(6)迭代计算。将训练数据分为多个组进行分批训练,进行多次迭代计算,通过设置训练次数或网络精度为终止条件,停止迭代过程。
(7)模型验证。将测试组数据输入模型,验证模型的性能。
实验中间结论
LSTM 神经网络的状态识别精度高于 KNN算法。用 LSTM 对产品尺寸进行了预测,不同组的尺寸有明显差异,但组内样本预测精度还有一定偏差,同一工艺条件下机台波动导致的尺寸差异难以体现,达不到高精度的尺寸预测要求。
结论
1工业生产中更适合半监督或无监督的分析方式。
2当工艺变化大时,过程数据的变化明显,模型能够识别不同的状态,但当工艺参数变化小时,模型分类精度不高,预测精度有待提升。
参考4 基于可解释机器学习的集成电路沉积膜厚的虚拟量测方法研究
数据驱动,对薄膜沉积过程中过程参数作为特征变量,用机器学习算法对数据进行数据建模,预测沉积模厚。不必考虑薄膜沉积过程中反应步骤与反应理论,使用数据分析技术提取薄膜沉积过程中参数蕴含的信息,建立过程参数与薄膜厚度之间关联模型,有效克服基于物理化学模型预测薄膜沉积厚度预测局限性。通过分析实际生产数据,解释参数间内在联系,优化薄膜沉积过程的控制策略,提高预测准确性与效率。
预处理
工艺复杂、过程繁琐、涉及太多工艺参数。使用多种特征筛选方法对高维度数据集进行特征筛选。
接着用超参数优化算法配置模型最佳超参数,比较方法的预测性能,最后使用多种可解释机器学习方法对最佳模型预测结果深入解释,建立逻辑闭环。
用遗传算法进行特征选择 优化相关性阈值 筛选特征间信息
基于哈里斯鹰优化算法(HHO)实现的超参数优化策略,自动化确定多个机器学习算法种的主要超参数,避免传统经验依赖手动调参做法,自动寻找模型最佳超参数配置,加速超参数调优过程。
最好选取表现最好的虚拟量测方法(建模)进行多方面可解释分析,深入讨论个特征对膜厚结果影响,建立实验与理论相互验证逻辑闭环。
特征筛选
1 减少计算复杂度,对原始数据集进行数据降维,减少特征个数,降低计算量,提升机器学习模型训练效率。
2 提高机器学习模型性能。去除数据集中的冗余特征,减少数据集中含有的噪声信息,提升模型性能上限与泛化能力。
rf-rfe特征筛选
目标工艺有三个阶段,传感器每一个阶段会采集110个工艺参数结果,数据采集过程相互独立。为实现对不同工艺阶段中相同工艺参数区分,每个工艺参数被赋予表示其所属阶段特定后缀。
1 删除无关信息
恒为0的特征、方差为0的特征(无意义特征)
2 缺失数据处理
缺失率低于5%的用平均值代替
3数据归一化
消除不同工艺参数量纲差异对数据建模影响,对所有特征进行归一化处理。
(标准化会将数据调整为均值为0、标准差为1的分布)
4异常数据 用箱线图进行分析,直观显示数据四分位数,计算iqr,分析评估数据离散程度,去除异常值。(异常值用中位数替代)
数据清洗
对于直接收集的无关数据,存在诸多问题,包含无关信息、数据缺失以及数据异常等,需要对其进行数据预处理以提高数据质量,确保后续虚拟量测建模可解释分析的准确性与有效性。
特征筛选 用随机森林为比对模型
比较特征筛序后数据集在随机森林模型训练下的均方误差、相关系数、mae,mape评估不同特征筛选方法性能。
r2score(模型预测值与真实值相关性)
超参数统一配置训练预测+5折交叉验证
给出mse、r2变化趋势图
多算法比对运行
lgb、rf、gbdt、xgb
--》算法优化 hho
->比对 建模结果
可解释性机器学习建模
自带的算法/shapley
2025 05 12
解决步骤方案优化
0 进行特征组合与探查(参考baseline)
理解三个数据集间的组合关系 - > 构建数据集
①考虑时域特征的提取:了解工艺场景与工艺基本原理,设计特征构建与组合方案
③是否不同工艺环节下特征影响度不一致,需要分几个阶段建模?
1 数据清洗
删除无关信息
恒为0的特征、方差为0的特征(无意义特征)
缺失数据处理
缺失率低于5%的用平均值代替;删除确实度较高的特征
数据归一化
消除不同工艺参数量纲差异对数据建模影响,对所有特征进行归一化处理。
(标准化会将数据调整为均值为0、标准差为1的分布)
异常数据处理
用箱线图进行分析,直观显示数据四分位数,计算iqr,分析评估数据离散程度,去除异常值。(异常值用中位数替代)
2数据探查
以size1为例
标记正负样本 查看数据分布(数值)
分开做特征重要性分析
3特征选取
以rf、xgb为基模型,rf-rfe作特征筛选。
绘制r2、mse图,确定入模特征。
4建模方案
(先跑一个size1作为base)
初步思路:假设数据已做好特征筛选
①基线方案对比:直接用lgb +高频特征的mean建模(微信公众号方案作为基线比对)
②比对其他基础集成学习算法:rf、xgb、gbdt、lgb
③若size1、size2、size3中有高相关特征 高相关的放一起建模
④size1、size2、size3三个一起建模 多输出任务
⑤正负样本分开建模
⑥不同注塑阶段数据分开建模

浙公网安备 33010602011771号