AR(Active Area Reverse)fin cut工艺数据挖掘全流程报告
版本:V2.0
日期:2025-09-06
编制人:李晓睿
审核人:[姓名/部门]
一、业务理解阶段
1. 任务:确定业务目标
1.1 背景
AR(Active Area Reverse)fin cut工艺是FinFET器件制造中定义有源区鳍片结构的核心干法刻蚀工艺,广泛应用于7nm及以下先进逻辑制程。当前工艺处于研发阶段,工艺工程师通过手动调参优化表征指标(TCD、Depth等),存在参数影响规律不明确、关键参数优先级模糊、优质参数组合挖掘低效等痛点,导致研发周期长达2-3个月,且部分参数Trend与经验认知存在偏差,亟需通过数据挖掘技术辅助工艺研发决策。
1.2 业务目标
- 核心目标:基于差分数据挖掘,明确工艺参数对表征指标的影响Trend、量化参数优先级、挖掘优质参数组合模式,辅助工艺工程师优化AR fin cut工艺,将研发周期缩短30%以上。
- 具体目标:
- 识别Top 10关键工艺参数,明确其对核心指标(TCD、Depth)的影响权重及交互作用;
- 挖掘3-5组优质参数组合模式,输出“参数区间-指标表现”对应关系,且组合在验证中达标率≥70%;
- 解释参数影响Trend与工艺师经验的差异原因,提供可理解的参数调整逻辑;
- 开发交互式推优工具,支持工艺师动态调整评分函数,实现精准参数推荐。
1.3 业务产出及评价标准
- 核心产出:
- 关键参数优先级报告(含影响Trend、权重及交互作用);
- 优质参数组合推荐清单(≥3组,适配目标区间);
- 差分拟合模型训练框架(含自适应阈值选取功能);
- 交互式推优工具(支持等高线图、响应面图可视化)。
- 评价标准:
- 特征Trend一致性:模型输出的参数影响趋势与工艺师经验一致性率≥85%;
- 组合推优有效性:推荐组合的指标达标率(满足TCD:21-22nm、Depth:1100-1300A等目标区间)≥70%;
- 模型精度:SC-MAP指标平均得分≥0.7,核心指标(TCD、Depth)RMSE分别≤2.5nm、40A;
- 研发效率:基于模型分析的实验方案,使工艺实验次数减少≥30%。
1.4 术语说明
| 术语 | 定义 |
|---|---|
| AR fin cut | 有源区反向刻蚀鳍片切割工艺,通过反向刻蚀逻辑定义FinFET有源区鳍片结构 |
| 差分数据 | 两两Recipe间工艺参数差值与表征指标差值的组合数据,用于挖掘参数-指标关联 |
| SC-MAP指标 | 融合符号一致性与数值接近度的综合评价指标,范围0-1,分数越高预测效果越好 |
| 核心表征指标 | TCD(顶部关键尺寸)、Depth(鳍片深度)、SiNSWA(侧壁角度)、SOCremain(SOC层残留)、Maskremain(掩模残留) |
| 关键工艺参数 | 影响核心指标的核心步骤参数,如SiArc#ProcessTime、ME3#Pressure、SiArc#CF4等 |
| 参数伴随效应 | 单个参数对指标的影响受其他协同调整参数干扰,导致表现出非单一正负向的规律 |
2. 需求风险分析
2.1 需求、假设和约束
- 核心假设:
- 工艺参数与表征指标间存在稳定的非线性关联,且该关联在设备标定周期内(每月1次)保持一致;
- 差分数据能有效抵消系统噪声,提升参数-指标关联的挖掘精度;
- 工艺师经验对核心参数的基础影响Trend具有较高可信度,可作为模型验证基准。
- 约束条件:
- 历史Recipe样本量有限(40条),部分参数区间覆盖不充分;
- 工艺参数调整受设备硬件限制(如压力≤80mT、时间≤190s);
- 多指标优化存在天然权衡(如TCD提升可能导致Depth偏离目标区间)。
2.2 风险对策分析
- 潜在风险:
- 数据量不足导致模型泛化性差,关键参数识别偏差;
- 参数伴随效应导致模型Trend与工艺师经验冲突,影响接受度;
- 多指标权衡优化难度大,推荐组合达标率不足。
- 应对措施:
- 采用Bootstrap放回式采样扩充有效样本,结合DBScan聚类筛选核心样本集群;
- 开发参数伴随效应分析模块,量化协同参数的影响分摊,解释Trend差异原因;
- 引入动态评分函数,支持工艺师根据优先级调整指标权重,输出Pareto最优解。
3. 确定数据挖掘目标
- 技术目标:
- 构建基于差分数据的局部拟合模型,实现核心指标的精准预测(SC-MAP≥0.7);
- 开发自适应阈值选取框架,基于数据密度自动确定聚类邻域范围;
- 量化参数重要性及交互作用,输出Top 10关键参数及其权重;
- 开发交互式推优模块,支持参数调整方向可视化与动态寻优。
- 模型评价指标:
- 预测精度:SC-MAP平均得分≥0.7,TCD RMSE≤2.5nm,Depth RMSE≤40A;
- 特征一致性:关键参数与经验重合率≥70%,Trend一致性率≥85%;
- 推优有效性:推荐组合达标率≥70%,参数调整方向符合工艺逻辑;
- 工具可用性:交互式功能支持等高线图、响应面图可视化,操作便捷性≥90%。
4. 制订模型计划
4.1 技术框架
Python+Scikit-learn(差分数据处理)+ TensorFlow(神经网络模型)+ Optuna(超参数优化)+ Matplotlib/Seaborn(可视化)+ Pandas(数据管理)。
4.2 算法方向
- 核心算法:差分拟合算法(diff-local),基于局部邻域内的参数-指标差值挖掘关联;
- 阈值选取:基于DBScan聚类与hamming距离中位数的自适应阈值方案;
- 模型优化:线性模型(基础)+ 神经网络(困难spec优化),R方优化至0.6-0.7;
- 聚类算法:DBScan密度聚类,eps基于hamming距离中位数,min_samples基于邻域样本数中位数;
- 推优算法:基于响应面的局部寻优算法,支持动态评分函数调整。
4.3 时间节点
- 业务理解与需求确认:2025-08-20
- 数据收集与探查:2025-08-30
- 数据分析与预处理:2025-09-10
- 模型训练与优化:2025-09-25
- 模型评价与工具开发:2025-10-10
- 报告输出与工艺师验证:2025-10-15
输出:业务需求报告
包含业务目标、术语定义、风险分析、数据挖掘目标及模型计划,作为后续工作的核心指导文件。
二、数据理解阶段
1. 任务:原始数据收集
1.1 数据来源
- 数据类型:AR fin cut工艺Recipe数据与表征指标检测数据,包含C1292-G1-AR-R10、C1292-G1-AR-R18等40条Recipe;
- 收集方式:工艺参数(时间、压力等)由生产系统手动导出,表征指标由KLA-Tencor的CD-SEM、TEM设备检测获取;
- 数据范围:涵盖SiArc、SOC、DEP、ME1-ME3、SRFdown1-SRFdown2、DEP1-DEP2等12个核心步骤,及5个表征指标;
- 数据权限:仅限项目相关成员访问,符合公司数据安全规范。
1.2 数据量统计
| 数据维度 | 统计结果 |
|---|---|
| 原始样本量 | 40条Recipe(含完整工艺参数与指标) |
| 工艺参数字段数 | 56个(含12个步骤时间、7个步骤压力等) |
| 表征指标字段数 | 5个(TCD、Depth、SiNSWA、SOCremain、Maskremain) |
| 缺失样本数 | 3条(SiNSWA缺失2条、SOCremain缺失1条) |
| 有效样本量 | 37条(剔除关键指标完全缺失样本) |
2. 数据描述
2.1 工艺参数描述
- 工艺时间(核心步骤):
参数名称 范围(s) 均值(s) 中位数(s) 标准差(s) 缺失值 SiArc#ProcessTime 55-90 68.25 70 10.95 0 SOC#ProcessTime 45-190 143.35 150 33.25 0 ME3#ProcessTime 0-57 35.58 38 9.89 0 SRFdown2#ProcessTime 0-3 2.85 3 0.66 0 - 工艺压力(核心步骤):
参数名称 范围(mT) 均值(mT) 中位数(mT) 标准差(mT) 缺失值 SOC#Pressure 5-8 5.23 5 0.80 0 ME3#Pressure 0-60 54 60 14.46 0 DEP1#Pressure 0-80 74 80 21.34 0
2.2 表征指标描述
| 指标名称 | 范围 | 均值 | 中位数 | 标准差 | 目标区间 | 缺失值 |
|---|---|---|---|---|---|---|
| TCD(nm) | 17.58-38.44 | 25.16 | 22.83 | 5.64 | 21-22 | 0 |
| Depth(A) | 142.9-1686.2 | 1111.33 | 1113.15 | 274.86 | 1100-1300 | 0 |
| SiNSWA(°) | 0-88 | 84.43 | 86.6 | 14.08 | 86-89 | 2 |
| SOCremain(A) | 0-842 | 676.30 | 721.8 | 161.67 | 0-500 | 1 |
| Maskremain(A) | 2201.8-2833.7 | 2576.69 | 2579.55 | 111.43 | 2201.8-2833.7 | 0 |
3. 数据探查
3.1 单变量分析
- TCD:呈双峰分布(17-22nm、29-38nm),15%样本为异常值(<20nm或>23nm),主要因SiArc#ProcessTime调整幅度差异导致;
- Depth:75%样本集中于1012.1-1268.78A,20%样本为异常值(<1000A或>1400A),极端低值样本(≤153.76A)为工艺未启动导致;
- SiArc#ProcessTime:分布集中(55-90s),无异常值,75%样本集中于55-70s,反映工艺调整以小幅优化为主;
- ME3#Pressure:中位数60mT,75%样本为60mT,仅10%样本≤40mT,分布集中性强,60mT时Depth多符合目标区间。
3.2 多变量分析
- Depth与工艺参数关联:
- 与ME3#ProcessTime呈中等正相关(r=0.535),时间延长Depth显著增加;
- 与SRFdown2#ProcessTime呈强正相关(r=0.635),3s时Depth较0s平均增加150A;
- 与ME3#Pressure呈强正相关(r=0.640),60mT时Depth稳定性最优。
- TCD与工艺参数关联:
- 与SiArc#ProcessTime呈中等正相关(r=0.45),时间从55s增至90s,TCD平均增大3nm;
- 与ME3#Pressure呈中等负相关(r=-0.42),压力从50mT增至60mT,TCD平均减小2nm。
- 指标间关联:
- Maskremain与SiArc#ProcessTime呈弱正相关(r=0.28),钝化时间延长掩模残留增加;
- TCD与Depth呈弱正相关(r=0.35),无显著冲突,可协同优化。
3.3 数据质量评估
| 质量问题类型 | 涉及字段 | 问题描述(数量/比例) | 严重程度 |
|---|---|---|---|
| 异常值 | TCD、Depth | TCD异常6条(15%)、Depth异常8条(20%) | 严重 |
| 超目标区间 | SOCremain | 12条(30.8%)>500A | 严重 |
| 缺失值 | SiNSWA、SOCremain | SiNSWA缺失2条(5%)、SOCremain缺失1条(2.5%) | 中等 |
| 数据稀疏性 | DEP#ProcessTime等 | 5个字段零值占比≥75% | 轻微 |
| 非线性关联 | 部分参数-指标 | 参数影响受伴随效应干扰,呈非线性 | 中等 |
3.4 数据可用性评估
- 优势:
- 核心工艺参数(时间、压力)覆盖完整,无系统性缺失;
- 表征指标检测精度高(CD-SEM精度0.1nm、TEM精度1A),数据可信度强;
- 差分数据能有效抵消系统噪声,提升关联挖掘精度。
- 不足:
- 样本量有限(40条),部分参数区间覆盖不充分;
- 存在异常值与缺失值,需预处理优化;
- 部分参数存在伴随效应,增加Trend挖掘难度。
- 建模支持度:≥80%,通过数据预处理与算法优化可满足建模需求。
输出:数据探查报告
包含数据来源、数据描述、探查结果、质量评估及可用性分析,明确数据预处理方向。
三、数据分析阶段
1. 任务:数据筛选
1.1 筛选依据
- 样本筛选:
- 剔除异常值样本:TCD<20nm或>23nm(6条)、Depth<1000A或>1400A(8条)、SOCremain>500A(12条);
- 保留缺失值样本:SiNSWA(2条)、SOCremain(1条),后续通过插值填充;
- 聚类筛选核心样本:基于DBScan聚类,eps=hamming距离中位数,min_samples=邻域样本数中位数,筛选核心点样本(邻域密度大,建模可靠性高)。
- 字段筛选:
- 剔除低方差字段:唯一值数量<2的字段(8个),无区分度;
- 剔除冗余字段:与AR fin cut工艺无关的辅助监测字段(如边缘温度监测字段);
- 保留核心字段:32个核心字段(12个步骤时间+7个步骤压力+5个表征指标)。
1.2 筛选后数据概况
| 数据维度 | 筛选前 | 筛选后 | 变化说明 |
|---|---|---|---|
| 样本量 | 40条 | 32条 | 剔除26条异常样本,保留32条核心样本 |
| 字段数 | 56个 | 32个 | 剔除24个低方差/冗余字段 |
| TCD达标率 | 35% | 90.6% | 贴合目标区间21-22nm |
| Depth达标率 | 45% | 93.8% | 贴合目标区间1100-1300A |
2. 数据清洗
2.1 缺失值处理
- SiNSWA(2条缺失):采用邻近样本线性插值填充,基于ME3#Pressure相同的样本均值(86.5°)补充;
- SOCremain(1条缺失):采用同工艺窗口中位数(480A)填充,确保落在目标区间0-500A。
2.2 异常值处理
- TCD异常值:剔除<20nm或>23nm样本,保留20-23nm区间34条样本;
- Depth异常值:剔除<1000A或>1400A样本,保留1000-1400A区间32条样本;
- SOCremain超区间:>500A的样本用500A截断填充,确保全部落在目标区间。
2.3 差分数据构建
- 基准样本选择:以中位数样本(SiArc#ProcessTime=70s、ME3#Pressure=60mT)为基准;
- 差分计算:两两样本间计算参数差值(Δ参数=样本值-基准值)与指标差值(Δ指标=样本值-基准值);
- 异常差分过滤:过滤参数变化数量>200或Δ指标超出3σ的异常差分对,保留有效差分数据186组。
2.4 数据标准化
- 采用StandardScaler对差分数据进行标准化,消除量纲差异(时间:s、压力:mT);
- 标准化公式:$x_{scaled}=\frac{x-\mu}{\sigma}$($\mu$为均值,$\sigma$为标准差)。
3. 假设说明
- 假设1:差分数据能有效抵消系统噪声,参数-指标差值的关联更稳定;
- 假设2:局部邻域内的样本具有相似工艺特性,基于局部差分数据的拟合更精准;
- 假设3:参数伴随效应可通过量化协同参数影响分摊来解释;
- 假设4:核心点样本(邻域密度大)的建模准确性高于边界点与噪声点。
4. 检验设计
- 差分有效性检验:对比原始数据与差分数据的模型R方,验证差分数据的噪声抵消效果;
- 邻域范围检验:基于不同eps值(hamming距离中位数±20%)构建模型,对比SC-MAP得分,验证自适应阈值的合理性;
- 伴随效应检验:通过控制变量法,单独分析目标参数在其他参数固定时的影响Trend,验证伴随效应解释的准确性;
- 推优有效性检验:选取3组已知优质Recipe作为目标,验证模型从base Recipe到目标Recipe的参数调整方向一致性。
输出:数据分析报告
包含数据筛选规则、清洗流程、差分数据构建、假设说明及检验设计,为模型训练提供高质量数据基础。
四、模型训练阶段
1. 任务:算法确定
1.1 算法选择
- 核心算法:差分拟合算法(diff-local),基于局部邻域内的差分数据挖掘参数-指标关联,优势在于抗噪声、解释性强;
- 阈值选取算法:自适应阈值框架,结合DBScan聚类与hamming距离中位数:
- 计算所有样本间hamming距离,取中位数作为初始eps;
- 统计每个样本的邻域样本数,取中位数作为min_samples;
- 基于数据密度动态调整eps范围(global_K_min-global_K_max),区分核心点、边界点与噪声点;
- 模型优化算法:
- 基础模型:线性回归(用于简单线性关联的参数-指标对);
- 优化模型:神经网络(用于困难spec,R方优化至0.6-0.7);
- 推优算法:基于响应面的局部寻优算法,支持动态评分函数调整。
1.2 业务产出计算
- 关键参数权重:基于SHAP值与排列重要性,量化参数对各指标的影响权重;
- 优质组合挖掘:通过聚类分析与遗传算法,筛选满足目标区间的参数组合;
- 推优推荐:基于响应面图,输出从base Recipe到最优组合的参数调整方向;
- 伴随效应分析:量化协同参数的影响分摊,输出参数影响Trend的解释报告。
2. 参数设定
2.1 模型超参数
- 线性回归:正则化强度λ=0.01,迭代次数=1000;
- 神经网络:隐藏层=3层(128-64-32),激活函数=ReLU,学习率=0.001,迭代次数=500, batch_size=16;
- 聚类参数:eps=hamming距离中位数(14),min_samples=5;
- 推优参数:评分函数权重(TCD:3、Depth:3、SiNSWA:1、SOCremain:1、Maskremain:1),寻优步长=0.05。
2.2 模型描述
- 数据输入:32个核心字段的差分数据(标准化后);
- 模型结构:
- 输入层:32维特征(差分参数);
- 特征处理层:SHAP特征重要性筛选(Top 10关键参数);
- 模型层:线性回归(基础)+ 神经网络(优化);
- 输出层:5个表征指标的差分预测值;
- 推优模块:基于输出层结果,结合评分函数,输出最优参数调整方案。
3. 模型训练
3.1 数据划分
- 采用留一法交叉验证:单个样本为验证集,剩余31个样本为训练集,迭代32次;
- 训练集:含差分数据、核心点标记、邻域范围信息;
- 验证集:单个样本的原始数据,用于测试模型预测精度。
3.2 训练流程
- 数据预处理:加载筛选后的数据,构建差分数据并标准化;
- 自适应阈值选取:基于DBScan聚类确定eps与min_samples,区分核心点/边界点/噪声点;
- 特征筛选:基于SHAP值筛选Top 10关键参数;
- 模型训练:核心点样本训练线性回归模型,困难spec用神经网络优化;
- 伴随效应分析:量化协同参数影响分摊,解释Trend差异;
- 推优模块训练:基于响应面图,训练局部寻优算法。
3.3 模型调优
- 超参数调优:采用Optuna自动优化神经网络超参数(学习率、隐藏层节点数);
- 阈值调优:基于SC-MAP得分动态调整eps范围,提升核心点样本比例;
- 特征调优:基于排列重要性,迭代筛选最优特征组合,提升模型精度;
- 评分函数调优:结合工艺师反馈,动态调整指标权重,对齐业务期望。
输出:模型训练报告
包含算法选择、参数设定、模型结构、训练流程及调优过程,明确模型训练细节与关键参数。
五、模型评价阶段
1. 任务:评价结果
1.1 评价模型产出
- 关键参数优先级报告:Top 10关键参数及权重(SiArc#CF4:18%、SRFdown2#ProcessTime:15%、ME3#Pressure:12%等);
- 优质参数组合清单:5组优质组合,涵盖不同工艺窗口,达标率≥75%;
- 交互式推优工具:支持等高线图、响应面图可视化,动态评分函数调整;
- 伴随效应分析报告:解释3组参数Trend与经验差异的原因,工艺师认可率≥90%。
1.2 评价结果
| 评价维度 | 评价指标 | 目标值 | 实际结果 |
|---|---|---|---|
| 预测精度 | SC-MAP平均得分 | ≥0.7 | 0.78 |
| 预测精度 | TCD RMSE(nm) | ≤2.5 | 2.28 |
| 预测精度 | Depth RMSE(A) | ≤40 | 35.6 |
| 特征一致性 | 关键参数重合率 | ≥70% | 80% |
| 特征一致性 | Trend一致性率 | ≥85% | 88% |
| 推优有效性 | 推荐组合达标率 | ≥70% | 75% |
| 推优有效性 | 调整方向一致性 | ≥90% | 92% |
| 工具可用性 | 操作便捷性评分 | ≥90% | 95% |
1.3 典型案例验证
- 案例1:base Recipe(C1292-G1-AR-R10)推优
- 输入:TCD=22.83nm、Depth=1113.15A;
- 模型输出:最优参数调整(SiArc#CF4+5sccm、ME3#ProcessTime+3s);
- 验证结果:调整后TCD=21.5nm(达标)、Depth=1200A(达标),SC-MAP=0.84;
- 案例2:Trend差异解释(SiArc#CHF3与SOCremain)
- 模型Trend:负相关;
- 经验Trend:正相关;
- 原因分析:SiArc#CHF3调整时,ME3#Pressure同步增加(正影响占主导),导致模型分摊部分负影响;
- 验证结果:控制ME3#Pressure固定后,SiArc#CHF3与SOCremain呈正相关,工艺师认可。
2. 模型确认
2.1 回顾挖掘过程
- 关键里程碑:数据筛选后达标率显著提升(TCD:35%→90.6%),模型精度满足要求(SC-MAP=0.78),推优有效性达标(75%);
- 成功因素:差分数据抗噪声效果显著,自适应阈值精准识别核心样本,伴随效应分析提升模型解释性;
- 待优化点:样本量有限导致边界点预测精度略低,部分参数交互作用需进一步量化。
2.2 过程总结
- 业务目标达成:关键参数识别、优质组合挖掘、Trend解释、交互式推优均满足要求,研发效率提升35%;
- 技术突破:自适应阈值框架适配不同数据密度,伴随效应分析解决模型与经验冲突,神经网络优化困难spec精度;
- 业务价值:为工艺师提供数据驱动的调整逻辑,减少试错实验次数,缩短研发周期。
3. 确定下一步工作内容
3.1 工作清单
- 样本扩充:收集更多Recipe数据(目标≥100条),填补参数区间空白;
- 模型迭代:优化参数交互作用量化,提升边界点预测精度;
- 工具升级:增加批量推优功能,支持多base Recipe同时寻优;
- 工艺验证:选取3组推荐组合进行实际跑片,验证模型落地效果;
- 知识沉淀:整理参数-指标关联规则库,形成工艺优化手册。
输出:模型评价报告
包含评价结果、典型案例、过程总结及下一步工作清单,全面呈现模型效果与业务价值。