机器学习算法分析数据

不要用SPSSpro,这玩意是在本机上跑的,稍微大一点的数据集内存就会炸掉
应该现在Kaggle Notebook上读入数据,然后使用df.info()函数,喂给Gemini或Claude,让他写出对应模型的网格搜索程序(粒度自己把握),然后再放到Kaggle Notebook上跑

好吧感觉Kaggle跑得太慢了,建议去Cloud Studio

同时注意,让AI写出训练代码之后,一定要让其在命令行中打出训练进度条,不然的话不知道还有多久才能练完

然后最好写ipynb文件,不要写py文件;因为如果中途出错了的话,就必须要从头开始跑了

注意对于xgboost来说,最后一定要保存两个文件,一个是模型参数文件,另一个是模型权重文件,这个样子才可以正确载入模型

最好可以检查一下下面的东西齐不齐

开始保存模型...
模型已保存为JSON格式: ./models/xgboost_model_20250528_015246.json
模型信息已保存为JSON: ./models/model_info_20250528_015246.json
完整模型已保存为PKL: ./models/xgboost_model_20250528_015246.pkl
网格搜索结果已保存: ./models/grid_search_results_20250528_015246.json

好像.pkl文件是一定要的,只用这个文件就可以加载整个模型了

还有让AI生成的时候,训练和预测的数据处理过程一定要对齐,最好开VScode的对比功能自己看,让AI一直核对是不行的

posted @ 2025-05-27 10:01  最爱丁珰  阅读(15)  评论(0)    收藏  举报