摘要:本篇博客继续上一节的内容,展开介绍三大容器元素创建即通过三大容器可以完成的常用设置。 阅读全文
posted @ 2020-02-27 09:18 奥辰 阅读 (154) 评论 (0) 编辑
摘要:Matplotlib是Python科学计算中使用最多的一个可视化库,功能丰富,提供了非常多的可视化方案,基本能够满足各种场景下的数据可视化需求。但功能丰富从另一方面来说也意味着概念、方法、参数繁多,让许多新手望而却步。 阅读全文
posted @ 2020-02-23 12:01 奥辰 阅读 (192) 评论 (0) 编辑
摘要:从18年6月毕业至今已有一年半的时间,但直到19年年初的时候才从学校的项目中抽离出来,来到女朋友生活的城市,靠自己的能力去工作、生活,所19年对我来说是比较特殊的一年,算是工作元年吧。对于这个元年,一直都想写一篇年终总结来作为一个收尾,也对自己这一年有个交代,可惜年末那段时间一直各种忙碌占据。借着疫情导致春节假期延长的这个空隙,来完成这份总结吧。 阅读全文
posted @ 2020-02-04 19:16 奥辰 阅读 (56) 评论 (1) 编辑
摘要:梯度提升树算法(Gradient Boosting Decision Tree,GBDT)是一个非常经典的机器学习算法,和我们前面介绍过的Adaboost算法一样,都是提升学习系列算法中的一员。从“梯度提升树”这个算法名称中我们也可以看出,这又是一个决策树的集成算法,更进一步地说,这个算法是以CART决策树算法作为基学习算法的一种集成算法。对于CART决策树算法,在之前的博客中已经有详细的介绍,在阅读本文之前请务必先理解CART决策树算法。接下来,本文将会从提升树开始,逐渐深入的介绍GBDT算法。 阅读全文
posted @ 2020-01-27 10:22 奥辰 阅读 (133) 评论 (0) 编辑
摘要:在展开数据分析工作时,我们经常会面临两种困境,一种是原始数据中特征属性太少,“巧妇难为无米之炊”,很难挖掘出潜在的规律,对于这种情况,我们只能在收集这一环节上多下功夫;另一种困境刚好相反,那就是特征属性太多,这真是一种幸福得烦恼,因为特征属性多就意味着信息量大,可挖掘的价值就大,但另一方面也可能造成过拟合和计算量的急剧增大,对于这一问题,最好的方法就是在预处理阶段对数据进行降维。 阅读全文
posted @ 2020-01-09 09:03 奥辰 阅读 (146) 评论 (0) 编辑
摘要:在上一篇博客中,我们总结了集成学习的原理,并展开介绍了集成学习中Bagging和随机森林这一分枝算法,在本篇博客中,我们继续介绍另一个分枝——Boosting,并对Boosting系列中的经典算法Adaboost展开分析。 阅读全文
posted @ 2020-01-06 07:57 奥辰 阅读 (93) 评论 (0) 编辑
摘要:集成学习算法是当下炙手可热的一类算法,在诸多机器学习大赛中都频繁出现它的身影。准确来说,集成学习算法并不是一个单独的机器学习算法,而是通过构建多个学习器,博采众家之长,共同求解问题的一种思想。 阅读全文
posted @ 2020-01-02 07:58 奥辰 阅读 (128) 评论 (0) 编辑
摘要:模型训练好之后,我们就要想办法将其持久化保存下来,不然关机或者程序退出后模型就不复存在了。本文介绍两种持久化保存模型的方法。 阅读全文
posted @ 2019-12-24 07:11 奥辰 阅读 (461) 评论 (0) 编辑
摘要:预处理操作是机器学习整个周期中必不可少的一个过程,也是最能快速改善模型性能的一个过程,往往稍微转换一下特征属性的形态,就能得到性能的极大提升。当然,数据预处理绝对也是耗时最长的一个过程,这一过程不仅要求洞悉整个数据集结构分布,还要探查每一个特征属性细节情况,并作出应对处理,使数据以最适合的状态传输给模型。 针对预处理操作,sklearn中提供了许多模块工具,灵活使用工具可以让数据预处理轻松很多。 本文简要介绍数据预处理中的一些主要方法,并结合sklearn中提供的模块进行实践。 阅读全文
posted @ 2019-12-17 07:51 奥辰 阅读 (269) 评论 (0) 编辑
摘要:Keras是一个基于Python编写的高层神经网络API,凭借用户友好性、模块化以及易扩展等有点大受好评,考虑到Keras的优良特性以及它的受欢迎程度,TensorFlow2.0中将Keras的代码吸收了进来,化身为tf.keras模块供用户使用。使用tf.keras提供的高层API,可以轻松得完成建模三部曲——模型构建、训练、评估等工作。下面我们分别来说说如何使用tf.keras完成这三部曲。 阅读全文
posted @ 2019-12-09 17:36 奥辰 阅读 (428) 评论 (1) 编辑