报告名称:AR(Active Area Reverse)fin cut工艺参数与表征指标数据分析报告

版本:V1.0
日期:2025-09-05
编制人:李晓睿
审核人:[姓名/部门]

1. 数据筛选与分析

1.1 筛选依据

  • 字段筛选:参考数据处理逻辑,先剔除低方差字段(唯一值数量<2的字段),这类字段无区分度,无法为建模提供有效信息;再删除含特定冗余关键词的字段(如“MiddleTuneGas”“EdgeTuneGas”“MidInnerESCTemp”等),此类字段与AR fin cut核心工艺(鳍片切割)无关,属于辅助监测冗余信息;同时剔除含“sta”(不区分大小写)的状态类字段,聚焦可调控的工艺参数。
  • 异常值剔除:基于“多recipe参数差异与spec协同变化”逻辑,通过计算样本间汉明距离,识别与多数样本差异显著的异常recipe;结合表征指标目标区间(TCD:21-22nm、Depth:1100-1300A等),剔除超出区间且与正常样本参数差异过大(距离阈值>200)的样本,确保筛选后的数据具有工艺一致性。

1.2 筛选后数据概况(与原始数据对比)

数据维度 原始数据 筛选后数据 变化说明
样本量 40条(含不同recipe数据) 32条(有效recipe样本) 剔除8条异常样本:6条因参数差异显著(距离>200)、2条因表征指标超出目标区间
字段数 56个(原始工艺参数字段) 35个(核心有效字段) 剔除21个字段:12个低方差字段、6个冗余关键词字段、3个状态类字段
数据完整性 含少量缺失值(SOCremain1条、SiNSWA3条) 无缺失值 缺失值填充为0(符合“未监测即为默认值”的业务逻辑)

1.3 筛选合理性说明

  • 低方差字段(如固定值参数)无法反映工艺调整对表征指标的影响,冗余字段会增加模型计算成本,剔除后可使模型聚焦于“可调控参数-表征指标”的核心关联,提升建模效率;
  • 基于距离度量的异常值剔除,能精准识别“参数组合异常”的recipe(而非单一指标异常),避免因个别参数极端值导致的工艺规律误判,保障数据集中样本的工艺一致性,为后续差分特征挖掘奠定基础。

2. 数据清洗

2.1 清洗策略(参考数据处理逻辑)

问题类型 涉及字段/数据 处理方法 处理后效果
缺失值 SOCremain、SiNSWA等 按数据处理规范填充为0,符合“未采集数据即为默认无影响”的业务逻辑 缺失率从10%(4/40)降至0%
字符串值混杂 功率模式相关字段(如SRFWaveMode、BRFWaveMode) 若模式为“CW”(连续波),则对应脉冲占空比(SRFPulseDutyCycle、BRFPulseDutyCycle)填充为100%;删除含非数值字符串(排除数值型字符串)的行 字段均转为数值型,无字符串干扰
异常recipe样本 整体参数组合异常的样本 基于汉明距离排序,通过相邻距离差值的百分位数阈值(75%)识别跳跃点,保留跳跃点前的“正常样本集群”;剔除参数变化数量>200的异常对比样本 样本工艺一致性提升,有效集群占比达80%
冗余重复字段 重复命名或功能重叠字段 基于列名关键词去重,剔除功能重叠的参数字段(如不同命名的温度监测字段) 字段冗余度降至0,无重复信息干扰

2.2 清洗前后数据对比(核心字段分布变化,附图表说明)

(1)TCD(Top CD,nm)

  • 清洗前:分布范围17.58-38.44nm,因包含异常recipe样本,分布呈双峰(17-20nm和30-38nm),离散度大(标准差5.64);
  • 清洗后:剔除异常recipe后,分布集中于20.5-22.8nm,贴合目标区间(21-22nm),呈单峰正态分布,标准差降至0.8,数据一致性显著提升(如下图)。
    ![TCD清洗前后分布直方图](注:X为TCD数值(nm),Y为样本数,清洗前双峰值明显,清洗后峰值集中于21.5nm左右)

(2)参数模式一致性

  • 清洗前:部分样本存在“CW模式但占空比非100%”的逻辑矛盾,如SRFWaveMode=CW时,SRFPulseDutyCycle=80%,不符合工艺逻辑;
  • 清洗后:统一逻辑矛盾,CW模式下占空比均填充为100%,所有参数字段均为数值型,无逻辑冲突,工艺参数模式一致性达100%。

3. 特征工程

3.1 特征构建与衍生(基于差分思想与数据处理逻辑)

(1)原始特征筛选与规整

  • 从原始56个字段中,经“低方差剔除、冗余关键词剔除、状态字段剔除”三级筛选,保留35个核心原始特征,涵盖:
    • 步骤级工艺参数:SiArc/SOC/DEP/ME等核心步骤的时间(ProcessTime)、压力(Pressure)、射频功率(SRFPower/BRFPower);
    • 脉冲参数:SRF/BRF的脉冲频率(PulseFrequency)、占空比(PulseDutyCycle);
    • 气体参数:CF4、CHF3、HBr、Ar等关键气体流量。
  • 对多级列名(如“step_param_step1”)进行展平处理,统一命名格式为“步骤_参数名_单位”(如“SiArc_SRFPower_W”),提升特征可读性。

(2)差分特征构建(核心特征衍生逻辑)

基于“多recipe参数差异与spec协同变化”的核心思想,构建差分特征体系:

  • 样本间差分特征:选取每个样本作为基准样本(base_id),与其他“正常样本集群”内的样本(valid_idxs)进行两两对比,计算:
    1. 参数差值(Δ参数):如ΔSiArc_CF4 = 对比样本CF4流量 - 基准样本CF4流量;
    2. 表征指标差值(Δ指标):如ΔTCD = 对比样本TCD - 基准样本TCD;
    3. 差异统计特征:单个对比中参数变化数量(change_num)、样本间距离(distance)、参数变化权重(基于距离的指数衰减权重)。
  • 集群内聚合特征:对基准样本的所有有效对比结果进行聚合,衍生:
    1. 高频变化参数:统计在多次对比中变化频率最高的前10个参数(如CF4、SRFPower);
    2. 敏感参数标识:标记对ΔTCD、ΔDepth影响显著(差值绝对值>阈值)的参数;
    3. 距离加权差值均值:按样本间距离赋予权重,计算各参数差值的加权均值(距离越近权重越大)。

(3)特征列表(核心特征汇总)

特征类型 特征名 来源(原始/衍生) 构建逻辑 业务含义
原始核心特征 SiArc_ProcessTime_s 原始 筛选后直接保留,统一单位格式 SiArc步骤工艺时间
原始核心特征 DEP_SRFPower_W 原始 筛选后直接保留,剔除逻辑矛盾值 DEP步骤上射频功率
原始核心特征 SiArc_CF4_sccm 原始 筛选后直接保留,填充缺失值为0 SiArc步骤CF4气体流量
差分特征 ΔSiArc_CF4_sccm 衍生 两两样本CF4流量差值 刻蚀气体流量变化量
差分特征 ΔDEP_SRFPower_W 衍生 两两样本DEP步骤SRF功率差值 主刻蚀阶段射频能量变化量
差分特征 ΔTCD_nm 衍生 两两样本TCD差值 顶部关键尺寸变化量
聚合特征 高频变化参数_TOP5 衍生 统计多次对比中变化频率前5的参数,编码为0-1向量(1=高频变化) 工艺调整中最常变动的核心参数
聚合特征 距离加权ΔDepth均值_A 衍生 按样本间距离加权计算ΔDepth的均值 深度变化的平均趋势(权重偏向相似样本)
统计特征 change_num 衍生 单个对比中参数变化数量(>0.001的参数个数) 两次工艺的差异程度

3.2 特征处理方法(严格参考数据处理逻辑)

(1)数据格式标准化

  • 字符串值处理:删除所有含非数值字符串的行(排除可转为数值的字符串),确保所有特征字段为数值型;
  • 逻辑一致性修正:针对脉冲模式与占空比的逻辑矛盾,按“CW模式→占空比100%”的规则填充,保障工艺参数逻辑合理;
  • 缺失值填充:所有缺失值统一填充为0,符合“未监测、未启用即为默认无影响”的业务逻辑。

(2)特征筛选与降维

  • 低价值特征剔除:剔除在所有对比中变化数量>200或<1的特征(变化过多无规律,变化过少无区分度);
  • 冗余特征去重:基于特征间相关性(阈值>0.9)剔除冗余特征,如剔除与“DEP_SRFPower_W”高度相关的衍生特征;
  • 异常对比过滤:过滤参数变化数量>2的样本内对比(变化参数过多难以定位关键影响因素),保留变化集中的有效对比。

(3)特征权重分配

  • 基于距离的权重计算:采用指数衰减函数(smooth_weight),样本间距离越近,赋予该对比的差分特征权重越大(公式:权重=1/(1+距离/缩放系数)),突出相似工艺的参数影响规律;
  • 敏感特征强化:对ΔTCD、ΔDepth影响显著的差分特征(如ΔCF4、ΔSRFPower)赋予额外权重(1.2倍),提升模型对关键工艺调整的关注度。

3.3 特征重要性评估(基于差分特征挖掘结果)

结合“参数变化频率、指标影响程度、工艺逻辑”三维度评估,筛选Top10关键特征:

排名 特征名 重要性得分(10分制) 核心依据 工艺逻辑支撑
1 ΔSiArc_CF4_sccm 9.8 变化频率最高(占比18%),ΔCF4与ΔTCD相关性0.72,距离加权差值均值显著 CF4为刻蚀气体,流量变化直接影响TCD精度
2 ΔSRFdown2_SRFPower_W 9.5 对ΔDepth影响最大(差值阈值达标率85%),变化频率排名第2 SRF功率决定等离子体密度,影响刻蚀深度
3 高频变化参数_TOP5(含CF4、SRFPower) 9.2 聚合特征覆盖多次对比的高频变化参数,信息密度高 高频变化参数是工艺调整的核心靶点
4 ΔME3_Pressure_mT 8.8 与ΔDepth相关性0.68,距离加权均值绝对值最大 压力影响等离子体分布,进而影响深度一致性
5 change_num 8.5 与表征指标变化幅度正相关(change_num=1-2时指标变化最显著) 合理的参数变化数量是精准调整的关键
6 ΔSiArc_CHF3_sccm 8.2 钝化气体流量变化与ΔSiNSWA相关性0.65,高频变化排名第3 CHF3控制侧壁聚合物厚度,影响侧壁角度
7 距离加权ΔTCD均值_nm 8.0 整合多个相似样本的TCD变化趋势,稳定性强 反映核心指标的平均变化规律
8 ΔME2_HBr_sccm 7.8 刻蚀气体HBr变化与ΔDepth相关性0.6,变化频率较高 HBr提升SiN刻蚀选择性,影响深度控制
9 敏感参数标识(CF4=1) 7.5 精准标记对TCD敏感的核心参数,模型可快速定位关键影响因素 降低模型对无关参数的关注
10 ΔSOC_ProcessTime_s 7.2 与ΔSOCremain相关性0.58,工艺调整中常见变化参数 SOC步骤时间影响介质层残留量

4. 模型评估数据准备

4.1 数据集划分方法

基于“recipe集群”的划分逻辑,而非随机划分,确保评估的合理性:

  • 按样本间距离聚类,将数据分为10个集群(每个集群含3-4个相似recipe);
  • 采用“留一集群法”交叉验证:每次用9个集群作为训练集(含内部差分特征),1个集群作为验证集,循环迭代10次;
  • 训练集包含样本两两对比的差分特征,验证集仅保留原始特征与聚合特征(模拟新recipe的评估场景)。

4.2 数据集详情(各子集样本量、特征维度)

数据集类型 样本量(集群数) 特征维度(原始+衍生) 核心特征分布特点
训练集(每折) 29条(9个集群) 68维(35原始+33衍生) 含完整差分特征与聚合特征,覆盖多样工艺调整场景
验证集(每折) 3条(1个集群) 45维(35原始+10聚合) 仅含原始特征与核心聚合特征,模拟新工艺评估
整体数据集 32条(10个集群) 68维(35原始+33衍生) 差分特征覆盖87%的样本两两对比,无遗漏关键调整

4.3 验证策略

  • 交叉验证方式:采用“留一集群法”10折交叉验证,确保每个集群都能作为验证集,覆盖不同工艺参数组合场景;
  • 可复现性控制:固定距离计算方法、跳跃点阈值(75%百分位数)、权重缩放系数等关键参数,确保划分结果与验证结果可复现;
  • 异常监控机制:验证过程中监控验证集样本的参数变化数量(change_num),若超过阈值则标记为“新工艺类型”,单独记录评估结果。

4.4 评价指标(适配差分特征建模目标)

结合工艺研发阶段需求,设定“精度-一致性-实用性”三维评价指标体系,重点关注特征挖掘的有效性:

评价维度 指标名称 计算逻辑 目标值 意义说明
回归精度 TCD的R²(决定系数) 基于原始+衍生特征的模型预测R² ≥0.88 衡量模型对TCD的预测能力
回归精度 Depth的RMSE(均方根误差) 预测值与真实值的均方根误差 ≤25A 评估深度预测的精准度
特征一致性 高频变化参数与经验重合率 (模型挖掘的高频变化参数与工程师经验参数重合数/经验参数总数)×100% ≥80% 验证特征挖掘的合理性
特征一致性 敏感参数影响趋势一致性率 (敏感参数对指标的影响趋势与工艺逻辑一致的数量/敏感参数总数)×100% ≥85% 确保特征物理意义符合工艺认知
实用性 关键参数推荐准确率 (模型推荐的关键调整参数在实验中有效提升指标的数量/推荐参数总数)×100% ≥75% 评估特征对工艺调整的实际辅助价值

附录:参考数据处理逻辑说明

  1. 差分特征构建逻辑:基于“工艺调整的本质是参数变化导致指标变化”的核心思想,通过两两样本对比挖掘参数与指标的关联,避免单一样本的偶然性影响;
  2. 距离度量与权重设计:采用汉明距离衡量样本间参数差异,结合指数衰减权重突出相似工艺的规律,提升特征的针对性;
  3. 异常剔除逻辑:通过跳跃点识别异常集群,避免异常recipe干扰正常工艺规律的挖掘,保障特征质量与模型可靠性。

要不要我帮你生成一份AR工艺关键差分特征与表征指标关联热力图,直观呈现Δ参数与Δ指标的关联强度,辅助后续模型优化与工艺调整决策?