上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 39 下一页
  2020年8月31日
摘要: sklearn.model_selection.StratifiedShuffleSplit 主要用于数据不均匀的时候,比如在医疗数据当中得癌症的人比不得癌症的人少很多,此交叉验证对象是StratifiedKFold和ShuffleSplit的合并,返回分层的随机折叠。折叠是通过保留每个类别的样品百 阅读全文
posted @ 2020-08-31 11:23 小小喽啰 阅读(1234) 评论(0) 推荐(0)
摘要: 工作中,我们可能会遇到需要每天给领导发送邮箱,数据来源是hive,并且格式基本一致,那么下面这些代码就可是使用得到 # coding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import time import da 阅读全文
posted @ 2020-08-31 10:49 小小喽啰 阅读(623) 评论(0) 推荐(0)
  2020年8月28日
摘要: 发现后面设置参数的时候,原生接口和sklearn的参数混在一起了,现在修改为 def run_xgboost(data_x,data_y,random_state_num): train_x,valid_x,train_y,valid_y = train_test_split(data_x.valu 阅读全文
posted @ 2020-08-28 16:20 小小喽啰 阅读(1728) 评论(0) 推荐(0)
摘要: GBDT 适用范围 GBDT 可以适用于回归问题(线性和非线性)其实多用于回归;GBDT 也可用于二分类问题(设定阈值,大于为正,否则为负)和多分类问题 RF与GBDT之间的区别与联系 1)相同点: 都是由多棵树组成 最终的结果都由多棵树共同决定。 2)不同点: 组成随机森林的树可以分类树也可以是回 阅读全文
posted @ 2020-08-28 15:22 小小喽啰 阅读(3885) 评论(0) 推荐(0)
摘要: 一、基本概念 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),全称梯度提升决策树,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g 阅读全文
posted @ 2020-08-28 11:37 小小喽啰 阅读(780) 评论(0) 推荐(0)
  2020年8月27日
摘要: 一、boosting算法 boosting是一种集成学习算法,由一系列基本分类器按照不同的权重组合成为一个强分类器,这些基本分类器之间有依赖关系。包括Adaboost算法、提升树、GBDT算法 一、Adaboost算法 AdaBoost方法的自适应在于:前一个分类器分错的样本会被用来训练下一个分类器 阅读全文
posted @ 2020-08-27 15:11 小小喽啰 阅读(3558) 评论(0) 推荐(0)
摘要: 工作中经常遇到要将十几个Excel(不管是xls、xlsx、或者是CSV)合并到同一个文件中去,手工一个一个复制是不可能的,此时就轮到Python出马了 主要是利用for循环,读取每一个文件,作为df,然后再通过list的append加在一起,然后再通过pd.concat拼接起来,最后将文件读到CS 阅读全文
posted @ 2020-08-27 13:45 小小喽啰 阅读(8104) 评论(0) 推荐(0)
  2020年8月26日
摘要: 目录 什么是集成学习 Bagging算法 Bagging用于分类 Bagging用于回归 一、什么是集成学习 集成学习是一种技术框架,它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务,一般结构是:先产生一组“个体学习器”,再用某种策略将它们结合起来,目前,有三种常见的 阅读全文
posted @ 2020-08-26 19:47 小小喽啰 阅读(10043) 评论(0) 推荐(2)
摘要: np.r_是按列连接两个矩阵,就是把两矩阵上下相加,要求列数相等。np.c_是按行连接两个矩阵,就是把两矩阵左右相加,要求行数相等 a = np.array([[1, 2, 3],[7,8,9]]) b=np.array([[4,5,6],[1,2,3]]) np.r_[a,b] ''' array 阅读全文
posted @ 2020-08-26 19:19 小小喽啰 阅读(398) 评论(0) 推荐(0)
摘要: 数据分析练手项目: 开源项目《动手学数据分析》:https://github.com/datawhalechina/hands-on-data-analysis DCIC 2020算法分析赛:DCIC 是国内少有的开放政府真实数据的经典赛事,对能力实践,学术研究等都提供了很好的机会。https:// 阅读全文
posted @ 2020-08-26 10:12 小小喽啰 阅读(1311) 评论(0) 推荐(0)
上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 39 下一页