06 2019 档案
摘要:"Spark快速大数据分析" 这本书用Java/Python/Scala三种语言介绍了Spark的基本概念和简单操作,对于入门Spark是一个不错的选择,这里做一个总结,方便以后查看。 首先,要搞清楚Spark是什么?它是一个用来实现快速而通用的集群计算的平台,在速度方面扩展了MapReduce计算
阅读全文
摘要:利用Python进行数据分析这本书,介绍了高效解决各种数据分析问题的Python语言和库,结合其他学习资源集中总结一下Python数据分析相关库的知识点。 数据分析相关库 (1) NumPy NumPy(Numerical Python)是Python科学计算的基础包,支持大量的 维度数组与矩阵 运
阅读全文
摘要:scikit learn 分层K折交叉验 StratifiedKFold迭代器 scikit learn k折交叉验证 使用scikit learn中的学习曲线函数评估模型 样本大小与训练准确率、测试准确率之间的关系 通过验证曲线判定过拟合与欠拟合
阅读全文
摘要:数据压缩是机器学习领域中重要的内容,通过数据压缩技术可以将原始数据集变换到一个维度更低的新的特征子空间,帮助对数据存储和分析。 降维压缩数据,分为无监督和有监督两类,先来介绍无监督数据压缩——主成分分析(Principal Component Analysis,PCA) PCA是在高维数据中找到最大
阅读全文
摘要:数据的质量和数据中包含的有用信息的数量直接影响机器学习算法最终的学习结构,因此,数据集进行学习算法之前,对数据进行检验及预处理至关重要。 主要内容: 数据集中缺失数据的删除和填充 数据格式化 模型构建中的特征选择 数据预处理 将数据集划分为训练数据集合测试数据集 本例数据集包含178个葡萄酒样本,每
阅读全文
摘要:数据结构与算法是计算机类从业者的必修课,一直学的不够深入,前段时间订阅了个专栏,终于开始总结了,拖延症太可怕 必须得改!开始学习数据结构与算法之前,先思考为什么要学习数据结构与算法呢?数据结构与算法解决了什么问题呢?我们要知道数据结构与算法解决的是如何让计算机执行速度更“快”和存储空间更“省”的问题
阅读全文
摘要:把每个阶段学习的内容记录下来,也是监督自己的一种方式。更新从6月开始,加油! 主题 | 内容 | 更新频次 | | Spark | ①Spark快速大数据分析②Spark高级数据分析③编程基础| 1/1 2周 数据结构与算法 | ①数据结构②算法 | 1/周 Linux | 鸟哥Linux私房菜 |
阅读全文

浙公网安备 33010602011771号