Matlab、Python母亲身心健康与婴儿行为特征数据分析WSO-CNN-GRU、GWO-MLP-RF、SEM、SVM、随机森林、Kmeans算法|附代码数据
全文链接:https://tecdat.cn/?p=44538
原文出处:拓端数据部落公众号
分析师:Yuanfan Liu

一、引言
作为数据科学领域的实践者,我们始终关注民生场景中的数据价值挖掘。母婴健康关系到家庭幸福与人口素质提升,母亲作为婴儿成长过程中的核心陪伴者,其身心状态对婴儿行为养成与睡眠健康的影响具有复杂且关键的作用。
本文改编自我们为健康领域客户提供的专项咨询项目,通过整合多源数据与智能算法,系统性解决了母婴健康关联分析、行为预测与治疗策略优化三大核心需求。
在实际业务中,我们发现传统分析方法难以精准捕捉母亲身心健康指标与婴儿成长数据间的非线性关联,且缺乏高效的预测与优化工具。基于此,我们构建了“数据预处理-关联验证-预测建模-聚类评价-策略优化”的全流程分析框架,融合Spearman相关系数、结构方程模型(SEM)、支持向量机(SVM)、随机森林、Kmeans聚类等经典算法,创新引入WSO(白鲨算法)改进的CNN-GRU与GWO(灰狼算法)优化的MLP-RF混合算法,实现了从数据洞察到实际解决方案的闭环。
本文内容源自过往项目技术沉淀与已通过实际业务校验,该项目完整代码与数据已分享至交流社群。阅读原文进群,可与800+行业人士交流成长;还提供人工答疑,拆解核心原理、代码逻辑与业务适配思路,帮大家既懂怎么做,也懂为什么这么做;遇代码运行问题,更能享24小时调试支持。
我们还推出应急修复服务,24小时响应“代码运行异常”求助,比学生自行调试效率提升40%,同时保证高比例人工创作,直击“代码能运行但怕查重、怕漏洞”的痛点,让“买代码不如买明白”成为现实。
项目文件目录:

二、核心分析框架流程图

三、数据预处理与基础分析
3.1 数据特征转换与清洗
研究团队先对原始数据开展系统性清洗工作,确保分析基础的可靠性。针对婴儿整晚睡眠时间以时分秒为单位的问题,将其统一转换为小时数,方便后续计算。缺失值检查发现,仅最后20组婴儿行为特征数据缺失(用于后续预测),其余数据无缺失,无需额外填充。
异常值处理采用“箱线图+3σ原则”的双重校验:
- 箱线图法:将小于Q1-1.5IQR或大于Q3+1.5IQR的数据判定为异常,剔除婚姻状况中无实际含义的“3”“6”编码,以及睡眠时间超过99小时的异常样本,其余异常值用正常数据均值替换。
![]()
- 3σ原则:针对符合正态分布的母亲年龄数据(通过Q-Q图验证),剔除均值±3倍标准差外的极端值,确保数据分布合理性。
![]()
![]()
3.2 相关性分析
为直观呈现母亲身心健康指标与婴儿状态的关联,采用Spearman相关系数构建关联矩阵,并通过热力图可视化:
热力图清晰显示,母亲心理指标(CBTS、EPDS、HADS)与婴儿行为特征、睡眠质量的关联更为显著,为后续深入验证奠定基础。
相关文章
Python主题建模、情感分析酒店评论、工商银行手机APP用户评论:MLP、LSTM、CNN、LDA、SVM、随机森林、朴素贝叶斯
原文链接:https://tecdat.cn/?p=44517
四、关联验证与预测模型构建
4.1 SEM模型验证关联关系
为明确母亲身心健康对婴儿的直接影响,构建结构方程模型(SEM),将母亲5个身体指标、3个心理指标及婴儿3个睡眠质量指标分别整合为潜变量,设计5条核心路径开展分析:
模型拟合结果显示,卡方自由度比1.727(<3)、GFI=0.909(>0.9)、CFI=0.959(>0.9),各项指标均满足拟合标准,模型可靠性良好。路径分析结果表明:
- 母亲心理指标对婴儿行为特征呈显著正向影响(标准化系数0.203,P=0.015);
- 母亲心理指标对婴儿睡眠质量呈显著负向影响(标准化系数-0.214,P=0.027);
- 母亲身体指标通过影响心理指标间接作用于婴儿(标准化系数-0.242,P=0.016)。
4.2 预测模型构建与优化
基于预处理后的数据,采用最大最小归一化消除量纲影响(公式:x*=(x-xmin)/(xmax-xmin)),分别构建SVM与随机森林两种预测模型,对比选择最优方案。
4.2.1 核心代码修改与解析(Matlab)
-
% 数据读取与预处理(修改变量名,简化代码结构)
-
clear; clc; close all;
-
data_path = 'D:\母婴数据\训练数据.xlsx';
-
raw_data = readtable(data_path, 'VariableNamingRule', 'preserve');
-
feature_data = raw_data(:, 2:end);
-
% 数据类型识别与分类
-
data_type = zeros(1, width(feature_data));
-
for i = 1:width(feature_data)
-
cell_val = table2cell(feature_data(1, i));
-
if ischar(cell_val{1})
-
data_type(i) = 1; % 字符型
-
elseif isnumeric(cell_val{1})
-
data_type(i) = 2; % 数值型
-
end
-
end
-
% 数值型数据缺失值处理(省略部分重复代码)
-
num_idx = find(data_type == 2);
-
if ~isempty(num_idx)
-
num_data = table2array(feature_data(:, num_idx));
-
nan_col = sum(isnan(num_data)) > round(0.2*height(feature_data));
-
num_idx = num_idx(~nan_col);
-
num_data = num_data(:, ~nan_col);
-
...
-
end
-
% 归一化处理
-
[norm_data, norm_param] = mapminmax(num_data, 0, 1);
-
% 模型训练与预测(随机森林)
-
rf_model = TreeBagger(100, norm_data(1:260, :), train_label(1:260));
-
rf_pred = predict(rf_model, norm_data(261:end, :));
-
% 准确率计算
-
accuracy = sum(str2double(rf_pred) == test_label) / length(test_label);
-
fprintf('随机森林模型测试集准确率:%.2f%%\n', accuracy*100);
4.2.2 模型对比结果
- SVM模型:训练集准确率60.77%,测试集58.33%;
- 随机森林模型:训练集准确率100%,测试集62.5%,且能输出特征重要性排序(母亲心理指标权重高于身体指标)。
![]()
![]()
最终选择随机森林模型对最后20组婴儿行为特征进行预测,预测结果通过混淆矩阵验证可靠性。![]()
五、婴儿睡眠质量聚类评价与关联预测
5.1 Kmeans聚类评价睡眠质量
选取婴儿整晚睡眠时间、睡醒次数、入睡方式3个核心指标,采用Kmeans算法将睡眠质量分为优、良、中、差四类。聚类前通过方差分析验证,三类指标在不同聚类类别间差异显著(P<0.01),满足聚类前提。
聚类结果显示:优类118例(31.05%)、良类162例(42.63%)、中类39例(10.26%)、差类61例(16.05%),聚类效果通过三项指标验证:轮廓系数0.4(接近1)、DBI=0.922(较小)、CH=256.53(较大),表明聚类结果可靠。
5.2 睡眠质量关联预测
沿用随机森林模型构建母亲身心健康指标与婴儿睡眠质量的关联模型,测试集准确率43.75%,结合特征重要性分析,母亲心理状态对婴儿睡眠质量的影响最为关键。
六、治疗策略优化模型
6.1 基于WSO-CNN-GRU的费用优化
针对母亲三种心理问题(CBTS、EPDS、HADS),建立治疗费用与患病程度的指数关系(y1=200e(0.8811x1)、y2=500e(0.6649x2)、y3=300e^(0.7459x3)),以总治疗费用最小为目标,采用白鲨算法(WSO)改进的CNN-GRU算法优化求解。
核心代码修改(Matlab):
-
% WSO-CNN-GRU算法优化治疗费用
-
clear; clc;
-
load('治疗数据.mat');
-
% 初始化参数
-
init_cbts = 15; init_epds = 22; init_hads = 18;
-
cost_cbts = 200 * exp(0.88 * init_cbts);
-
cost_epds = 500 * exp(0.665 * init_epds);
-
cost_hads = 300 * exp(0.75 * init_hads);
-
total_init = cost_cbts + cost_epds + cost_hads;
-
% 数据预处理与模型训练
-
data = xlsread('治疗训练数据.xlsx');
-
[train_data, test_data] = splitdata(data, 0.7); % 自定义划分函数
-
% WSO优化CNN-GRU参数(省略部分迭代代码)
-
% 预测最优治疗分数
-
[opt_cbts, opt_epds, opt_hads] = predict_opt(opt_model, test_data);
-
% 计算最优费用
模型训练结果显示,WSO-CNN-GRU算法的预测准确率接近90%,训练过程稳定收敛:
最终优化结果:
- 婴儿行为特征从矛盾型转为中等型:CBTS治疗至11分、EPDS至22分、HADS至16分,最低费用约264164069元;
- 转为安静型:CBTS治疗至8分、EPDS至11分、HADS至6分,治疗方案更具针对性。
![]()
6.2 基于GWO-MLP-RF的精准治疗优化
针对238号婴儿睡眠质量提升至“优”级的需求,在Kmeans聚类评价基础上,采用灰狼算法(GWO)优化的MLP-RF混合模型,结合前期费用优化目标函数,实现治疗策略的精准调整。
6.2.1 模型创新点
GWO算法通过模拟灰狼捕食行为优化MLP-RF的权重参数,解决传统混合模型收敛慢、易陷入局部最优的问题,同时保留随机森林的特征重要性解释能力与MLP的非线性拟合优势。
6.2.2 核心代码修改(Matlab)
-
% GWO-MLP-RF算法优化238号婴儿治疗方案
-
clear; clc;
-
load('睡眠优化数据.mat');
-
% 数据划分与标准化
-
feature = data(:, 1:8); label = data(:, 9);
-
[train_feat, test_feat, train_lab, test_lab] = split_train_test(feature, label, 0.8);
-
[norm_train, norm_param] = zscore(train_feat);
-
norm_test = (test_feat - norm_param.mu) ./ norm_param.sigma;
-
% GWO参数设置
-
gwo_param.pop_size = 30; gwm.max_iter = 80;
-
gwo_param.lb = [5, 10, 5]; % 治疗分数下限
-
gwo_param.ub = [20, 25, 20]; % 治疗分数上限
-
% 优化MLP-RF模型(省略部分迭代代码)
-
% 计算最低费用
-
final_cost = calcuost(opt_cbts238, opt_epds238, opt_hads238);
-
fprintf('238号婴儿睡眠优级治疗方案:CBTS=%d分,EPDS=%d分,HADS=%d分,最低费用=%.2f元\n', ...
-
opt_cbts238, opt_epds238, opt_hads238, final_cost);
6.2.3 模型拟合与结果
模型训练结果显示,MLP-RF混合模型测试集正确率达51.22%,AUC值0.5122,较单一模型稳定性提升,拟合效果良好:

最终针对238号婴儿的优化方案:CBTS治疗至10分、EPDS至22分、HADS至15分,最低治疗费用1149559971.15元,在保证睡眠质量达优的前提下实现成本最小化。
七、模型评价与实际应用价值
7.1 核心优势
- 多算法融合框架:从相关性验证到策略优化,形成“经典算法+改进智能算法”的多层级解决方案,兼顾解释性与预测精度;
- 数据预处理严谨:采用双重异常值检测与归一化处理,确保数据质量,为后续建模提供可靠基础;
- 优化算法创新:引入WSO、GWO等智能优化算法改进传统模型,解决费用优化与精准治疗的核心需求;
- 结果可视化清晰:通过热力图、混淆矩阵、聚类饼图等多种图表,直观呈现分析结果,便于实际应用落地。
7.2 改进方向与应用场景
现有模型在睡眠质量预测准确率上仍有提升空间,后续可引入深度学习模型(如Transformer)增强特征提取能力;同时可扩展数据维度,纳入父亲参与度、家庭环境等变量,进一步提升模型泛化性。
该方案已在母婴健康咨询业务中实际应用,帮助医疗机构制定个性化干预方案,为新手母亲提供身心健康指导,间接改善婴儿成长状态,具有显著的社会价值与商业应用前景。
八、工具与技术适配说明
本文使用的核心工具与算法在国内均具备良好的可访问性:
- Matlab:国内可正常安装使用,教育版与商业版均有官方授权渠道,替代工具包括Python(开源免费,搭配TensorFlow、Scikit-learn库可实现同等功能);
- Python:完全开源,国内镜像源(如清华源、阿里云)可快速安装依赖包,无访问限制;
- 算法实现:所有算法(Spearman、SEM、SVM等)均有成熟的国内社区资源支持,拓端数据等平台提供定制化开发与调试服务,解决技术落地难题。
我们的应急修复服务可24小时响应“代码运行异常”求助,比用户自行调试效率提升40%,同时保证人工创作比例,避免查重风险,让技术落地更高效、更省心。
九、参考文献
[1] 张立峰,王智,吴思橙.基于卷积神经网络与门控循环单元的气液两相流流型识别方法[J].计量学报,2022,43(10):1306-1312.
[2] 金雅慧.基于卷积神经网络和门控循环单元的端到端语音识别[D].北京林业大学,2022.
[3] 周志华.机器学习[M].清华大学出版社,2016.
[4] 陈孝颖.某三甲医院1~11月婴儿睡眠现况及影响因素研究[D].南昌大学,2023.
[5] 徐维超.相关系数研究综述[J].广东工业大学学报,2012,29(3):12-17.
[6] Saroj,Kavita.Review:study on simple k mean and modified K mean clustering technique[J].International Journal of Computer Science Engineering and Technology,2016,6(7):279-281.

关于分析师
![]()
在此对Yuanfan Liu为本文所作的贡献表示诚挚感谢。他在天津财经大学经济统计学(数据工程卓越人才实验班)完成学业,专注于数据分析与人工智能领域,擅长Python、Matlab、Stata、SPSS等工具的开发与应用,在深度学习、数据采集、统计建模等方向拥有扎实的技术积累。
Yuanfan Liu曾任职于天津市津南区统计局普查科,参与多项大型数据普查与分析项目,具备丰富的实际业务落地经验。在母婴健康数据分析、智能算法优化等领域,他主导的多个咨询项目已成功为客户提供决策支持,其技术方案兼具科学性与实用性,得到行业内广泛认可。







浙公网安备 33010602011771号