机器学习算法分析数据
不要用SPSSpro,这玩意是在本机上跑的,稍微大一点的数据集内存就会炸掉
应该现在Kaggle Notebook上读入数据,然后使用df.info()
函数,喂给Gemini或Claude,让他写出对应模型的网格搜索程序(粒度自己把握),然后再放到Kaggle Notebook上跑
好吧感觉Kaggle跑得太慢了,建议去Cloud Studio
同时注意,让AI写出训练代码之后,一定要让其在命令行中打出训练进度条,不然的话不知道还有多久才能练完
然后最好写ipynb
文件,不要写py
文件;因为如果中途出错了的话,就必须要从头开始跑了
注意对于xgboost来说,最后一定要保存两个文件,一个是模型参数文件,另一个是模型权重文件,这个样子才可以正确载入模型
最好可以检查一下下面的东西齐不齐
开始保存模型...
模型已保存为JSON格式: ./models/xgboost_model_20250528_015246.json
模型信息已保存为JSON: ./models/model_info_20250528_015246.json
完整模型已保存为PKL: ./models/xgboost_model_20250528_015246.pkl
网格搜索结果已保存: ./models/grid_search_results_20250528_015246.json
好像.pkl
文件是一定要的,只用这个文件就可以加载整个模型了
还有让AI生成的时候,训练和预测的数据处理过程一定要对齐,最好开VScode的对比功能自己看,让AI一直核对是不行的