摘要:
下面介绍如何将Python Notebook (.ipynb)转换成Markdown文件(.md) 首先安装nbconvert: pip install nbconvert 然后cd到文件的目录下,用下命令: jupyter nbconvert --to markdown **.ipynb 阅读全文
摘要:
开始学习TensorFlow:https://www.tensorflow.org/tutorials TensorFlow的官网上有Tutorial和Guide两部分教程,Guide主要介绍一些概念性的东西,Tutorial则更加通过实例来介绍TensorFlow的使用。 本篇介绍TensorFl 阅读全文
摘要:
本文介绍MLP(Multi-Layer Perception的理论以及实践) 参考: https://zhuanlan.zhihu.com/p/63184325 https://en.wikipedia.org/wiki/Multilayer_perceptron 一. 理论 MLP是最基本的神经网 阅读全文
摘要:
本文介绍一些模型中常用的评价模型准确性的指标 参考: Various ways to evaluate a machine learning model’s performance Evaluation Criteria for Machine Learning Models 本文针对回归问题和分类 阅读全文
摘要:
LightGBM是微软旗下的Boost学习算法,在Xgboost的基础上做了更多方面的优化。 理论 此部分主要介绍LightGBM做了哪些优化,此部分参考:https://zhuanlan.zhihu.com/p/99069186: 为了避免XGBoost的缺陷,并且能够在不损害准确率的条件下加快G 阅读全文
摘要:
偏度和峰度是数据处理中常用的用来分析数据分布程度的指标,Pandas中提供了这两个函数。 skew 偏度 偏度(skew),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来 阅读全文
摘要:
XGBoost是一种基于Boost算法的机器学习方法,全称EXtreme Gradient Boosting。 XGBoost在GBDT的基础上,引入了: CART回归树 正则项 泰勒公式二阶导数 Blocks数据结构(用于加速运算) 从而实现了比GBDT更好的实现效果。 一. 理论 关于XGBoo 阅读全文
摘要:
本文将介绍机器学习中比较基础的两种Boost方法 — AdaBoost 和 GBDT AdaBoost 简介 Boosting, 也称为增强学习或提升法,是一种重要的集成学习技术, 能够将预测精度仅比随机猜度略高的弱学习器增强为预测精度高的强学习器,这在直接构造强学习器非常困难的情况下,为学习算法的 阅读全文
摘要:
转载自:https://zhuanlan.zhihu.com/p/297923315 Symbol是什么? symbol是 ES6 新增的一种基本数据类型,它和 number、string、boolean、undefined 和 null 是同类型的,object 是引用类型。它用来表示独一无二的值 阅读全文
摘要:
本文介绍如何针对特征工程中的字符串数据进行编码 转载自:https://zhuanlan.zhihu.com/p/42075740 1 为什么要进行特征编码? 我们拿到的数据通常比较脏乱,可能会带有各种非数字特殊符号,比如中文。下面这个表中显示了我们最原始的数据集。而实际上机器学习模型需要的数据是数 阅读全文
摘要:
本篇介绍机器学习中常用的随机森林算法还有其常用的延申算法Extra Tree以及实例 参考: https://zhuanlan.zhihu.com/p/380323376 https://zhuanlan.zhihu.com/p/57965634 https://scikit-learn.org/s 阅读全文
摘要:
本文介绍机器学习中最基础最简单的决策树分类 参考: https://zhuanlan.zhihu.com/p/133838427 https://zhuanlan.zhihu.com/p/30059442 https://www.kaggle.com/prashant111/decision-tre 阅读全文
摘要:
本文介绍机器学习中入门的KNN(K-Nearest Neighbors )分类算法。 参考: https://scikit-learn.org.cn/view/695.html https://zhuanlan.zhihu.com/p/38430467 https://zhuanlan.zhihu. 阅读全文
摘要:
seaborn是一个基于pyplot的数据可视化库,可以比较简单美观地用于展示基于Pandas数据类型的数据 missingno是一个基于pyplot的用于展示数据空值的直观工具,在处理大数据时也非常有用 安装: pip install seaborn pip install missingno 使 阅读全文
摘要:
本文主要介绍Pandas数据类型和空值处理 数据类型dtype pandas数据导入后会自动转变为dtype类型,查看类型: reviews.price.dtype 类型转换: reviews.points.astype('float64') 关于dtypes的详细信息参考: https://pan 阅读全文