moon~light - 博客园

2020年3月14日

摘要： SVD（Singular Value Decomposition，奇异值分解）是一种强大的降维工具很多情况下，数据的一小段携带了大部分信息，其他要么是噪声，要么就是毫不相关的信息，SVD 是矩阵分解的一种，可以把 SVD 看成是从噪声数据中抽取相关特征优点：简化数据，去除噪声，提高算法的结果缺阅读全文

posted @ 2020-03-14 20:56 moon~light 阅读(363) 评论(0) 推荐(0)

机器学习：降维工具 - PCA

摘要：降维（dimensionality reduction）就是减少数据特征的维度作用使得数据集更易使用降低很多算法的计算开销去除噪声使得结果易懂 PCA（主成分分析 Principal Component Analysis） PCA 将数据从原来的坐标系转换到了新的坐标系第一个新坐标轴选阅读全文

posted @ 2020-03-14 18:40 moon~light 阅读(444) 评论(0) 推荐(0)

机器学习：FP-growth

摘要： FP growth（Frequent Pattern Growth）算法用于发现频繁项集作用：比 Apriori 更高效的发现频繁项集特点：快于 Apriori、实现比较困难 Apriori 每次增加频繁项集的大小，都会重新扫描整个数据集当数据集很大时，这会显著降低频繁项集发现的速度 FP g 阅读全文

posted @ 2020-03-14 15:34 moon~light 阅读(445) 评论(0) 推荐(0)

2020年3月12日

机器学习：Apriori

摘要：优点：易编码实现缺点：在大数据集上可能较慢从大规模数据集中寻找物品间的隐含关系被称作关联分析（association analysis）或者关联规则学习（association rule learning）比如购买商品 A 的顾客有多大概率同时购买商品 B，比如用户在搜索框输入 "py 阅读全文

posted @ 2020-03-12 23:32 moon~light 阅读(248) 评论(0) 推荐(0)

2020年3月10日

机器学习：K-Mean

摘要： K Mean（K 均值聚类）算法用于将数据集分成 K 个簇，K 值是由用户给定的优点：容易实现缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢算法随机初始化 k 个簇中心点每个中心点的每个特征值在所有样本的最大值和最小值之间随机取一个每个样本分到距离最近的簇取分到该簇的所有样本的均阅读全文

posted @ 2020-03-10 01:37 moon~light 阅读(359) 评论(0) 推荐(0)

2020年3月9日

机器学习：CART

摘要： CART（Classification And Regression Trees，分类回归树）算法既可以用于分类也可以用于回归优点：可以对复杂和非线性的数据建模缺点：结果不易理解线性回归需要拟合所有的样本（局部加权线性回归除外），当特征众多并且特征之间关系十分复杂时，构建全局模型的想法就显得太阅读全文

posted @ 2020-03-09 23:51 moon~light 阅读(284) 评论(0) 推荐(0)

2020年3月8日

机器学习：线性回归

摘要：优点：结果易于理解，计算上不复杂缺点：对非线性的数据拟合不好线性回归用于数值预测，回归方程为 $\large y = x_{1}w_{1} + x_{2}w_{2} + ... + x_{n}w_{n} + b$ 写成矩阵形式 $\large y = XW + b$ 为方便计算，添加 $\la 阅读全文

posted @ 2020-03-08 22:12 moon~light 阅读(257) 评论(0) 推荐(0)

矩阵的运算规则

摘要：加法 $\large A + B = B + A$ $\large (A + B) + C = A + (B + C)$ 与数相乘 $\large (λμ)A=λ(μA)$ $\large (λ+μ)A =λA+μA$ $\large λ (A+B)=λA+λB$ 矩阵相乘 $\large (AB) 阅读全文

posted @ 2020-03-08 22:06 moon~light 阅读(1934) 评论(0) 推荐(0)

2020年3月7日

机器学习：集成算法 - xgboost

摘要： xgboost（eXtreme Gradient Boosting）大规模并行 boosting tree 的工具，据说是现在最好用的 boosting 算法，针对传统 GBDT 算法做了很多改进 xgboost 和传统 GBDT 的区别 GBDT 基学习器只用 CART 树，而 xgboost 阅读全文

posted @ 2020-03-07 19:46 moon~light 阅读(394) 评论(0) 推荐(0)

2020年3月2日

机器学习：集成算法 - GBDT

摘要： GBDT（Gradient Boosting Decison Tree）：梯度提升决策树 GBDT 的弱学习器通常使用 CART 回归树 GBDT 的核心在于，每棵树学的是之前所有树的结论和的残差，比如 A 的年龄 18 岁，第一棵树依据特征值预测 12 岁，差 6 岁，即残差为 6 岁，那么第二棵阅读全文

posted @ 2020-03-02 01:49 moon~light 阅读(224) 评论(0) 推荐(0)

moon__light

公告