随笔分类 - 机器学习
摘要:数据统计 作为一个数据科学家,数据统计不要求很精通,但是掌握数据统计的基本知识,能够运用数据统计的相关方法解决实际问题是必要的。从数据的分析的目的和思考方式来看,数据统计方法分为:描述统计和推断统计。从数据分析的方法论角度看,可分为两个层次:基本分析法和元分析法。 1概率分布 在统计学中,概率分布可
阅读全文
摘要:数据预处理 1数据质量 基本属性:正确性,完整性,一致性 2数据审计 运用一定的规律和评价方法,发现数据中存在的问题。如:缺失值,噪声值,不一致值,不完整值。 数据审计的三种类型:预定义审计,自定义审计,可视化审计 3数据清洗 3.1缺失数据清洗 三个活动:缺失识别,缺失分析,缺失处理 方法:较为简
阅读全文
摘要:相关基础概念 1数据 1.1数据模型 概念模型:用户视角—各种文档,业务流程图,er图等 逻辑模型:数据科学家视角—关系模型,层次模型,网状模型 key-value,key-document,key-column和图模型等,常用格式:关系表,csv,json,xml,rdf等 物理模型:机器视角--
阅读全文
摘要:0机器学习中分类和预测算法的评估: 准确率 速度 健壮性 可规模性 可解释性 1决策树(判定树)的概念 决策树是一个类似于流程图的树结构(可以是二叉树或多叉树):其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。机器学习中分类方法中
阅读全文
摘要:1定义(百度词条) 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机
阅读全文

浙公网安备 33010602011771号