05 2019 档案
2.HDFS和HA
摘要:1.HDFS简介 DataNode NameNode SecondaryNameNode HDFS文件权限 2.HDFS小结 3.HDFS交互操作 4.HDFS编程访问接口
阅读全文
7.分类与预测
摘要:1.分类与预测的概述 分类与预测是机器学习中有监督学习任务的代表。一般认为:广义的预 测任务中,要求估计连续型预测值时,是“回归”任务;要求判断因变 量属于哪个类别时,是“分类”任务。 2.打趴下 回归分析 板凳 线性回归 洛奇逻辑回归求解 算法实现 3.决策树 概述 算法分类 4,nuname 练
阅读全文
5.Python使用模块
摘要:1.模块的 作用 2.模块的含义 3.模块的 导入 因此模块能够划分系统命名空间,避免了不同文件的变量重名的问题。 Python的模块使得独立的文件连接成了一个巨大的程序系统。 模块的导入是通过import语句,下面是三种import语句的格式 a) import numpy : 直接导入N
阅读全文
4.面向对象编程
摘要:4.面向对象编程 简介类与对象 类的定义 类的属性_init_方法 表示标识标示对象的方法 方法引用 私有化 迭代器继承? 继承语法:class 子类名(基类名1, 基类名2, …) 基类写在括号里,如果有多个基类,则需要全部都写在括号里,这种情况称为多继承。在Python中继承有下面一些特点:1.
阅读全文
2.函数
摘要:1.创建函数‘ def lambda’ 2.函数参数 位置或关键字参数 任意数量的位置参数 ? 任意数量的位置参数在定义的时候是需要一个星号前缀来表示,在传递 参数的时候,可以在原有参数的后面添加零个或多个参数,这些参数将 会被放在元组内并传入到函数。带星号前缀的参数必须定义在不带两个 星号的参数之
阅读全文
1,python基础入门
摘要:1.常用操作符 算术操作符,赋值操作符,比较操作符和逻辑操作符 2.数字数据 变量与赋值、 数字数据类型 3.流程控制 条件语句、While语句、break语句和continue语句、for循环 4.数据结构 标量、序列、映射、集合 列表、列表函数、字符串、字符串函数、元组、字典、集合 5.文件读写
阅读全文
9.聚类分析
摘要:1.什么是聚类 聚类:数据对象的集合/蔟 2.聚类的一般应用 模式识别 空间数据分析 图象处理 经济科学 3.聚类方法 数据挖掘对聚类的要求 4.聚类分析中的数据类型 数据结构 相异度矩阵 评估聚类的质量 区间标度变量 对象之间的相似性/相异性 二元变量,对称的,不对称的 标称变量-分类变量,名义变
阅读全文
7.分类:基本概念 忌讳
摘要:1.有监督 vs 无监督学习 2.预测问题:分类 vs 数值预测 3.分类:模型构建 模型使用 4.决策树归纳分类 什么是决策树 决策树的生成有两个阶段组成 : 决策树构建、树剪枝 决策树的使用:对未知样本进行分类 决策树归纳的算法 : 贪心算法 终止划分的条件 5.属性选择度量:三种度量,信息增益
阅读全文
6.挖掘关联规则
摘要:1.什么是关联规则挖掘 关联规则反映一个事物与其它事物之间的相互依存性和关联性 关联规则挖掘是在事务、关系数据库中的项集和对象中发现频繁模式、关联规则、相关性或者 因果结构。 频繁模式:数据库中频繁出现的项集 犀利 扞许怀孕孝顺 2.关联规则基本模型 支持度是一个概率值,是一个相对计数 项集的支持度
阅读全文
5.数据立方体计算与数据泛化
摘要:1.两种不同类别的数据挖掘方法 描述性挖掘: 数据泛化 预测性挖掘:分类、回归分析 2.数据立方体的物化 3.数据立方体、闭立方体、立方体外壳和和计算策略搭档大裆、、喜欢西幻 4.什么是概念描述 概念描述是一种数据泛化的形式,概念通常指数据的汇集 5.概念描述 vs OLAP 相似处: 数据泛化 对
阅读全文
4.数据挖掘的数据仓库与OLAP技术
摘要:1.什么是数据仓库 面向主题的、集成的、时变的、非易失的 2.数据仓库和异种DBMS 3.OLTP vs OLAP 4.为什么建立分离的数据仓库? 5.多维数据模型(数据仓库的概念建模)三类度量 4.典型的OLAP操作 5.数据仓库实现 数据方的有效计算、数据方计算 6.从数据仓库到数据挖掘 7.数
阅读全文
03数据预处理
摘要:数据预处理 1.为什么数据预处理 2.数据为什么脏 3.为什么数据预处理是重要的 4.数据质量 5.数据预处理的主要任务 6.数据预处理的形式 数据清理 1.如何处理缺失数据 2.如何处理噪音数据 数据集成 1.模式集成、冲突数据值、冗余数据 数据变换 规范化数据的方法 :最小-最大规范化、Z-sc
阅读全文
02Data
摘要:1.数据从何而来 2.数据对象和属性类型 数据集合的类型 结构数据的重要特征 数据对象 属性 属性类型 数据属性的类型 离散 vs.连续属性 3.数据的(基本)统计描述 分布度量 代数度量 整体度量 度量数据的中心趋势 对称/偏斜数据 4.数据可视化 5.数据的相似性和相异性、邻近度 数据矩阵和相异
阅读全文
浙公网安备 33010602011771号