AutoML学习---机器学习01

一、机器学习

　　转换为网络结构，如下图所示：

（1）数值特性：

　　① 连续特征：log^1P、|x| 、e^x、归一化、离散化、顺序号等。

　　② 离散特征：频率、目标编码、One-hot 编码、合并、Label-Encoder 等。

（2）特征提取（以文本为例）：

　　特征特征提取与特征选择有很大的不同：前者包括将任意数据（如文本或图像）转换为可用于机器学习的数值特征。后者是将这些特征应用到机器学习中。

（3）交叉特征：

　　① 文本交叉特征：文本相似度、N-gram 集合关系、词向量差、子串匹配、模糊匹配等。

　　② 数值交叉特征：a-b 、|a-b| 、a>b 、a*b 、 a/b 、 (a-b)²等。

（4）特征选择、降维：

　　① 特征选择：Stepwise Regression（逐步回归）、特征重要性；

　　② 随机投影：Locality-Sensitive Hashing 、随机投影；

　　注：随机投影矩阵的维度和分布是受控制的，所以可以保存任意两个数据集的距离。因此随机投影适用于基于距离的方法。

　　③ 线性投影：PCA（主分量分析）、LDA（线性判别分析）；

　　④ 非线性投影：Auto-Encoder（自动编码？？）、GDA（标准广义判别分析）。

（5）模型选择、调参：

　　① 模型选择：暴力搜索；

　　② 超参数选择：网格搜索、随机搜索、Bayes Optimization（贝叶斯优化）。

　　转换为网络结构，如下图所示：

　　类似于机器学习的分析。

posted on 2019-05-26 14:46 终是双曲线阅读(258) 评论(0) 收藏举报

刷新页面返回顶部