学习进度笔记16 - 嘻嘻_嘻 - 博客园

学习进度笔记16

《机器学习十讲》第一讲

一、大数据：数据采集、数据清洗、数据分析和数据应用的整个流程中的理论、技术和方法。

机器学习：大数据分析的核心内容。找到将X和Y关联的模型F。

深度学习：机器学习的一部分，核心是自动找到对特定任务有效的特征，即自动完成Data到X的转换。

二、机器学习的方法

1、有监督学习

数据集中的样本带有标签（Y），有明确目标（找到最佳映射F）；回归和分类。

一般流程：

2、无监督学习

数据集中的样本没有标签，没有明确目标；聚类、降维、排序、密度估计、关联规则挖掘。

3、强化学习

智慧决策的过程，通过过程模拟和观察来不断学习，提高决策能力。

智能体agent；环境environment；状态state；行动action；奖励reward。

三、模型选择

1、交叉验证：重复使用数据

2、K折交叉验证

四、数据的数学结构

1、度量结构

举例：根据词频计算文章相似度

K近邻算法

k-d树

2、网络结构

PageRank算法

3、Scikit-learn

基本建模流程

常用函数

案例1：使用KNN对新闻主题进行自动分类

1、数据读取：pandas

2、数据分词：jieba

3、将新闻表示为向量

4、构建KNN分类器

5、测试集预测

6、效果评估：混淆矩阵

案例2：使用PageRank对全球机场进行排序

1、网络读取：networkx

2、找出最大连通子图，可视化

3、使用PageRank算法对机场排序

4、将节点大小与PageRank值关联并可视化

posted on 2021-01-27 15:39 嘻嘻_嘻阅读(45) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部