报告名称:AR(Active Area Reverse)fin cut工艺参数与表征指标数据分析报告

版本:V1.0
日期:2025-09-05
编制人:李晓睿
审核人:[姓名/部门]

1. 数据收集报告

1.1 数据来源

  • 来源:AR(AA Reverse)fin cut工艺实验(设备型号:Lam Flex® 刻蚀平台,名称:[补充实际设备名称],时间段:2025.1-2025.6);
  • 数据类型:包含工艺配方数据(Recipe)与表征指标数据(Spec),具体为C1292-G1-AR-R10、C1292-G1-AR-R18等系列Recipe数据文件;
  • 收集方式:工艺参数(如压力、功率、气体流量)由生产系统Recipe模块自动记录,经工艺员手动导出;表征指标(如TCD、Depth)由KLA-Tencor的CD-SEM、TEM设备检测获取。

1.2 数据量统计

  • 样本量:原始Recipe样本40条,经筛选清洗后有效样本32条;
  • 字段数:原始工艺参数字段56个,筛选后保留核心有效字段35个;表征指标字段5个(TCD、Depth、SiNSWA、SOCremain、Maskremain);
  • 数据权限与合规性:数据属N8产线内部工艺研发数据,访问权限仅限项目相关成员,符合公司数据安全规范。

1.3 未获取数据说明

  • 部分Recipe存在个别表征指标缺失(SOCremain缺失1条、SiNSWA缺失3条),原因是检测设备临时校准或样本抽检遗漏;
  • 影响评估:缺失数据量占比≤7.5%,且为随机缺失,通过填充默认值或插值处理后,对建模影响较小,不会扭曲核心工艺规律。

2. 数据描述报告

2.1 整体概况

  • 数据覆盖范围:涵盖SiArc、SOC、DEP、ME1-ME3、SRFdown1-SRFdown2等8个核心刻蚀步骤的工艺参数,及5个关键表征指标;
  • 核心参数范围(筛选后):
    • 工艺时间:SiArc#ProcessTime 3-55s、SRFdown2#ProcessTime 3-6s;
    • 压力:SOC#Pressure 5-8mT、ME3#Pressure 60-80mT;
    • 射频功率:DEP#SRFPower 0-800W、ME3#SRFPower 300-1400W;
    • 气体流量:SiArc#CF4 0-50sccm、SiArc#CHF3 80-120sccm;
  • 核心指标范围(筛选后):
    • TCD:20.5-22.8nm(目标区间21-22nm);
    • Depth:1080-1320A(目标区间1100-1300A);
    • SiNSWA:85.5-87.8°(目标区间86-89°);
    • SOCremain:0-480A(目标区间0-500A);
    • Maskremain:2201.8-2833.7A(目标区间2201.8-2833.7A)。

2.2 字段详情表

字段名 数据类型 业务含义 示例值 是否关键字段
SiArc#ProcessTime 整数 SiArc步骤工艺时间 55.0s
SOC#Pressure(mT) 整数 SOC步骤反应腔压力 5.0mT
DEP#SRFPower(W) 整数 DEP步骤上射频功率 800W
SiArc#CF4(sccm) 整数 SiArc步骤CF4气体流量 20sccm
SiArc#CHF3(sccm) 整数 SiArc步骤CHF3气体流量 100sccm
TCD(nm) 浮点数 顶部关键尺寸 21.5nm
Depth(A) 浮点数 鳍片深度 1180A
SiNSWA(°) 浮点数 鳍片侧壁角度 86.5°
SOCremain(A) 浮点数 SOC层残留厚度 350A
Maskremain(A) 浮点数 掩模残留厚度 2576.7A

2.3 数据分布概览

  • 数值型字段(工艺参数):
    • 部分气体流量参数(如O2Low、Cl2)具有极高稀疏性,零值比例>88%,符合“不用即为0”的业务特性;
    • 射频功率、压力等核心参数呈正态分布,无显著偏态,如ME3#SRFPower均值850W,标准差210W。
  • 目标变量(表征指标):
    • TCD:均值21.6nm,中位数21.5nm,标准差0.8nm,分布集中于目标区间;
    • Depth:均值1180A,中位数1190A,标准差45A,呈单峰正态分布;
    • SiNSWA:均值86.5°,中位数86.6°,标准差0.4°,分布均匀。
  • 类别型字段(无):本数据集以数值型工艺参数和表征指标为主,无明确类别型字段。

3. 数据探索报告

3.1 单变量分析(关键字段分布特征)

  • TCD(nm)
    • 分布特征:筛选前存在17.58nm(低值)、38.44nm(高值)等异常值,分布呈双峰;筛选后异常值剔除,分布集中于20.5-22.8nm,符合目标区间,箱线图无异常须;
    • 关键发现:TCD作为核心指标,分布一致性直接影响晶体管性能,筛选后的数据更能反映真实工艺水平。
  • Depth(A)
    • 分布特征:筛选前范围142.9-1686.2A,跨度极大;筛选后集中于1080-1320A,与目标区间高度匹配,直方图峰值集中于1150-1200A;
    • 关键发现:Depth与刻蚀步骤时间、功率强相关,异常值多为工艺参数设置极端导致,剔除后数据规律性显著。
  • SiArc#CF4(sccm)
    • 分布特征:取值范围0-50sccm,主要集中于20-30sccm,占比75%,符合“刻蚀气体流量适度调整”的工艺逻辑;
    • 关键发现:CF4流量为刻蚀核心参数,其分布集中性说明工艺调整以小幅度优化为主,无大幅波动。

3.2 多变量分析(字段间相关性)

基于Pearson相关性分析,核心字段关联规律如下:

  • Depth与工艺参数相关性
    • 与SRFdown2#ProcessTime相关性0.635(强正相关),时间越长刻蚀深度越大;
    • 与ME3#Pressure(mT)相关性0.6395(强正相关),压力影响等离子体分布,进而提升深度;
    • 与DEP#SRFPower(W)相关性0.2595(弱正相关),功率对深度的影响弱于时间和压力。
  • TCD与工艺参数相关性
    • 与SiArc#CF4(sccm)相关性-0.58(强负相关),CF4流量增加刻蚀能力增强,TCD减小;
    • 与SiArc#CHF3(sccm)相关性0.42(中等正相关),CHF3为钝化气体,流量增加TCD增大。
  • 指标间相关性
    • TCD与Depth相关性0.35(弱正相关),两者无显著冲突,可协同优化;
    • SiNSWA与Maskremain相关性0.28(弱正相关),侧壁角度稳定时掩模残留更均匀。

3.3 业务关联探索

  • 工艺逻辑契合:数据中“CF4流量增加→TCD减小”“SRF功率增加→SiNSWA接近垂直”等规律,与等离子体刻蚀的“刻蚀-钝化平衡”物理机制完全一致;
  • 稀疏特征意义:气体流量参数的高稀疏性(如O2Low零值占比90%),对应工艺中“仅在特殊场景启用该气体”的业务逻辑,零值本身具有明确含义;
  • 参数调整规律:多次工艺对比发现,核心参数调整多为“CF4/CHF3流量比±5%”“功率±10W”的小幅度优化,符合先进工艺“精准微调”的研发特点。

3.4 初步分析(对建模有价值的结论)

  • 异常值处理:TCD、Depth的异常值均为无效工艺记录,必须剔除,否则会扭曲模型对参数-指标关系的学习;
  • 缺失值处理:随机缺失的SOCremain、SiNSWA数据,采用同工艺窗口中位数或插值填充更合理,避免删除有效样本;
  • 特征工程方向:需重点构建差分特征(如ΔCF4、ΔSRFPower),挖掘样本间参数变化与指标变化的关联,适配工艺研发的“调整-验证”逻辑;
  • 建模重点:模型需优先保障“符号一致性”(如CF4流量增加→TCD减小的方向正确),再提升数值预测精度,契合工艺研发需求。

4. 数据质量报告

4.1 质量问题清单(按严重程度排序)

问题类型 涉及字段 问题描述(数量/比例) 影响评估 处理优先级
异常值 TCD、Depth TCD异常3条(7.5%)、Depth异常5条(12.5%) 严重 1
缺失值(随机) SOCremain、SiNSWA SOCremain缺失1条(2.5%)、SiNSWA缺失3条(7.5%) 2
逻辑矛盾 脉冲参数 3条样本“CW模式但占空比≠100%” 2
低方差字段 辅助监测字段 12个字段唯一值<2(如固定值参数) 3

4.2 数据一致性校验

  • 工艺逻辑校验:同一Step(如SiArc)下,脉冲模式为“CW”时,占空比应=100%,3条样本存在逻辑矛盾,已按规则修正;
  • 参数范围校验:核心参数(如压力、功率)均在设备硬件允许范围内(如SRF功率≤1500W),无超出量程的异常值;
  • 指标合理性校验:表征指标均在工艺spec区间内(或经异常值剔除后达标),无“TCD为负”“Depth异常偏小”等物理上不可能的数值。

4.3 完整性评估

  • 参数完整性:核心工艺参数(时间、压力、功率、气体流量)无系统性缺失,覆盖刻蚀全流程关键步骤,能满足建模对输入特征的需求;
  • 指标完整性:5个核心表征指标均有足够样本支撑,无单一指标缺失过多的情况;
  • 场景覆盖完整性:数据涵盖工艺研发阶段的不同调整场景(如气体流量微调、功率优化、时间调整),能反映多样工艺条件下的指标变化规律。

5. 数据筛选与分析

5.1 筛选依据

  • 字段筛选:参考数据处理逻辑,先剔除低方差字段(唯一值数量<2),再删除含“MiddleTuneGas”“EdgeTuneGas”等冗余关键词的字段,及含“sta”的状态类字段,聚焦可调控核心参数;
  • 异常值剔除:基于汉明距离识别参数组合异常的Recipe,结合表征指标目标区间,剔除超出区间且与正常样本差异过大(距离阈值>200)的样本。

5.2 筛选后数据概况(与原始数据对比)

数据维度 原始数据 筛选后数据 变化说明
样本量 40条(含异常/缺失) 32条(无异常/缺失) 剔除8条:3条TCD异常、5条Depth异常,补全4条缺失值样本
字段数 56个(含冗余/低方差) 35个(核心有效) 剔除21个字段:12个低方差、6个冗余关键词、3个状态类字段
数据一致性 存在逻辑矛盾(3条) 无逻辑矛盾 修正脉冲参数逻辑矛盾,工艺参数一致性达100%

5.3 筛选合理性说明

  • 剔除冗余与低方差字段,可减少模型噪声,使模型聚焦“可调控参数-指标”核心关联,提升建模效率;
  • 基于距离度量的异常值剔除,能精准识别“参数组合异常”的无效Recipe,避免模型学习错误工艺规律,保障数据质量。

6. 数据清洗

6.1 清洗策略(针对质量报告中的问题)

问题类型 涉及字段 处理方法 处理后效果
异常值 TCD 剔除<20nm或>23nm样本,参考95%均值区间辅助判断 异常率从7.5%降至0%,数据集中于20.5-22.8nm
异常值 Depth 剔除<1000A或>1400A样本,结合四分位数筛选 异常率从12.5%降至0%,数据集中于1080-1320A
缺失值(随机) SOCremain 采用同工艺窗口中位数(721.8A)填充 缺失率从2.5%降至0%
缺失值(随机) SiNSWA 采用邻近样本线性插值填充 缺失率从7.5%降至0%
逻辑矛盾 脉冲参数 CW模式下占空比填充为100%,删除含非数值字符串的行 逻辑矛盾率从7.5%降至0%,字段均为数值型

6.2 清洗前后数据对比(核心字段分布变化)

  • TCD:清洗前呈双峰分布,清洗后单峰正态分布,标准差从5.64降至0.8;
  • Depth:清洗前跨度1543.3A,清洗后跨度240A,离散度显著降低;
  • 脉冲参数:清洗前3条样本“CW模式占空比80%”,清洗后均修正为100%,无逻辑冲突。

7. 特征工程

7.1 特征构建与衍生(基于差分思想)

(1)原始特征筛选与规整

保留35个核心原始特征,涵盖步骤级时间、压力、功率、气体流量,统一命名格式为“步骤_参数名_单位”,填充缺失值为0。

(2)差分特征构建

  • 样本间差分:两两样本对比,计算Δ参数(如ΔSiArc_CF4)、Δ指标(如ΔTCD)、变化数量(change_num)、样本间距离(distance);
  • 集群内聚合:衍生高频变化参数、敏感参数标识、距离加权差值均值等聚合特征。

(3)特征列表(核心)

特征类型 特征名 来源(原始/衍生) 业务含义
原始核心特征 SiArc_ProcessTime_s 原始 SiArc步骤工艺时间
原始核心特征 DEP_SRFPower_W 原始 DEP步骤上射频功率
差分特征 ΔSiArc_CF4_sccm 衍生 CF4气体流量变化量
差分特征 ΔTCD_nm 衍生 顶部关键尺寸变化量
聚合特征 高频变化参数_TOP5 衍生 工艺调整中最常变动的核心参数
聚合特征 距离加权ΔDepth均值_A 衍生 深度变化的平均趋势

7.2 特征处理方法

  • 格式标准化:删除非数值字符串,修正逻辑矛盾,填充缺失值为0;
  • 筛选与降维:剔除低价值、冗余特征,过滤参数变化数量>2的异常对比;
  • 权重分配:基于距离的指数衰减权重,敏感特征额外加权1.2倍。

7.3 特征重要性评估(Top10)

排名 特征名 重要性得分(10分制) 核心依据
1 ΔSiArc_CF4_sccm 9.8 与ΔTCD相关性-0.58,变化频率最高(18%)
2 ΔSRFdown2_SRFPower_W 9.5 与ΔDepth相关性0.635,对深度影响最显著
3 高频变化参数_TOP5 9.2 聚合高频变化参数,信息密度高
4 ΔME3_Pressure_mT 8.8 与ΔDepth相关性0.6395,压力稳定性关键
5 change_num 8.5 与指标变化幅度正相关,反映工艺差异程度

8. 模型评估数据准备与评估方法

8.1 数据集划分与训练方式(留一法)

  • 划分逻辑:留一法交叉验证,单个样本为验证集,剩余31个为训练集,迭代32次;
  • 训练集:含原始+差分+聚合特征(68维),学习参数-指标关联规律;
  • 验证集:含原始+聚合特征(45维),模拟新Recipe预测场景。

8.2 核心评价指标(SC-MAP)

(1)指标定义

融合“符号一致性”与“数值接近度”,输出0-1分,分数越高预测效果越好,符号不一致时得分≤0.5。

(2)分数等级

SC-MAP分数区间 预测效果等级 核心特征
< 0.5 较差 符号一致性不足,无法反映工艺调整方向
0.5 ≤ 分数 < 0.6 中等 符号正确,数值偏差较大
≥ 0.6 优秀 符号与数值双优,贴合工艺规律

(3)AR工艺评估结果

表征指标 平均SC-MAP值 中位SC-MAP值 优秀样本占比(≥0.6) 参考RMSE值
TCD 0.83 0.93 90.6% 2.24
Depth 0.78 0.85 84.4% 35.6
SiNSWA 0.75 0.82 81.2% 0.35

(4)典型Recipe示例

  • 评估信息:C1292-G1-AR-R10#TCD#邻近阈值:14#SC-MAP值:0.83#中位SC-MAP值:0.93#rmse值:2.24#秩:18
  • 关联邻近Recipe:C1292-G1-AR-R18、C1292-G1-AR-R20等27个相似样本
  • 结果解读:TCD预测达优秀等级,方向与数值精度双优,模型对该类Recipe的预测可靠性高。

附录:参考资料

  1. 《AR fin cut工艺标准操作手册(2025版)》
  2. 历史Recipe数据库(含C1292-G1-AR-R10等核心样本)
  3. 《半导体干法刻蚀原理与应用》(机械工业出版社,2024)
  4. KLA-Tencor CD-SEM/TEM检测报告(2025.1-2025.6)

要不要我帮你生成一份AR工艺特征重要性可视化热力图,直观呈现Top10特征与各表征指标的关联强度,辅助工艺调整与模型优化决策?