总访问量: PV

DataScience && DataMining && BigData

摘要: 需求: 一直写的代码都是从加载数据,模型训练,模型预测,模型评估走出来的,但是实际业务线上咱们肯定不能每次都来训练模型,而是应该将训练好的模型保存下来 ,如果有新数据直接套用模型就行了吧?现在问题就是怎么在实际业务中保存模型,不至于每次都来训练,在预测。 解决方案: 机器学习-训练模型的保存与恢复( 阅读全文
posted @ 2017-12-18 18:49 CJZhaoSimons 阅读(2566) 评论(0) 推荐(0)
摘要: Sklearn中解决方案 在Python的sklearn中,经常会使用分层抽样的方法,使用train_test_split方法对数据集进行切分,如若指定分层抽样则随机切分数据集的比例将会和源数据集中正负样本的比例保持一致,这是常用的一种方法。 另外在sklearn中,对数据集通常采用k则交叉验证的方 阅读全文
posted @ 2017-12-18 17:09 CJZhaoSimons 阅读(903) 评论(0) 推荐(1)
摘要: 最小二乘法可以从Cost/Loss function角度去想,这是统计(机器)学习里面一个重要概念,一般建立模型就是让loss function最小,而最小二乘法可以认为是 loss function = (y_hat -y )^2的一个特例,类似的像各位说的还可以用各种距离度量来作为loss fu 阅读全文
posted @ 2017-12-18 15:12 CJZhaoSimons 阅读(4147) 评论(0) 推荐(0)