摘要: Boosting是串行式集成学习方法的代表,它使用加法模型和前向分步算法,将弱学习器提升为强学习器。Boosting系列算法里最著名的算法主要有AdaBoost和梯度提升系列算法(Gradient Boost,GB),梯度提升系列算法里面应用最广泛的是梯度提升树(Gradient Boosting 阅读全文
posted @ 2019-07-19 16:43 moonyue 阅读(2263) 评论(0) 推荐(2) 编辑
摘要: 集成学习的一般结构是,先产生一组个体学习器,再用某种结合策略将它们结合起来,从而获得一个准确性更高,稳定性更强,泛化性能更佳的集成模型。常用的结合策略有绝对多数投票法,相对多数投票法,加权投票法,简单平均法,加权平均法等。 集成学习方法中具有代表性的两类算法是Bagging和Boosting。Bag 阅读全文
posted @ 2019-07-15 09:52 moonyue 阅读(632) 评论(0) 推荐(0) 编辑
摘要: 决策树是一种应用广泛的机器学习算法,过程简单,结果易于解释。决策树是一种贪心算法,它在给定时间给做出最佳选择,并不关心能否达到全局最优。 决策树特点 精确度高,容易解释 可表达非线性的关系 不需要大量数据 可能存在过拟合问题 结果不稳定,泛化能力差 ID3:不能处理连续数据,没有剪枝过程,采用信息增 阅读全文
posted @ 2019-07-01 10:28 moonyue 阅读(690) 评论(0) 推荐(0) 编辑
摘要: 根据各个指标获得综合指标时,由于各个指标对综合指标的贡献度不同,相应权重也应不同,对综合指标贡献大的指标更重要,应该分配更大的权重。如何确定各个指标的权重,这里介绍两种方法:熵值法和pca确定权重。也可用于特征工程中确定特征权重。 一、熵值法 1、熵的概念 信息论中,熵是对随机变量不确定性的度量。熵 阅读全文
posted @ 2019-06-30 21:41 moonyue 阅读(9634) 评论(0) 推荐(0) 编辑
摘要: 一、任务描述 爬取https://movie.douban.com/tag/#/豆瓣电影,选择电影,中国大陆,2018年,按评分最高,爬取前200部,保存电影名称,图片链接,和电影评分。 由于网页是动态加载,每页显示20条,每一页的网址是变化的,需要去网页上查看网址。 打开网页,进入开发者模式。 右 阅读全文
posted @ 2019-06-16 22:35 moonyue 阅读(2903) 评论(0) 推荐(0) 编辑
摘要: 一、差分进化的思想 差分进化是在遗传算法的基础上发展而来的,与遗传算法相似,有变异、交叉、选择等操作,但是实现简单,收敛速度快。差分进化的过程是随机生成一个初始化群体,经过交叉、变异、选择三个操作,反复迭代,保留有用的个体,寻找最优解。 差分进化利用了贪婪的思想,在每一次的迭代中,保留最优解。通过当 阅读全文
posted @ 2019-06-16 21:19 moonyue 阅读(2396) 评论(0) 推荐(0) 编辑