挖掘频繁模式、关联和相关性:基本概念和方法
摘要:基本概念 频繁模式挖掘搜索给定数据及中国反复出现的联系。 购物篮分析:一个例子 频繁项集、闭项集和关联规则 规则的 支持度 和 置信度 是规则兴趣度的两种度量。 一个例子: 支持度 :支持度为2%,意味着分析的所有事务的2%显示计算机和杀毒软件被同时购买 置信度 :置信度60%,意味着购买计算机的顾
阅读全文
posted @
2018-11-09 16:15
一小白
阅读(831)
推荐(0)
面试题56: 数组中数字出现的次数
摘要:```c / 《剑指Offer——名企面试官精讲典型编程题》C++代码 htfeng 2018.10.09 面试题56: 数组中数字出现的次数 题目一:数组中只出现一次的两个数字 题目一分析: 相关数字的二进制表示为: 2 = 0010 3 = 0011 4 = 0100 5 = 0101 6 =
阅读全文
posted @
2018-11-09 10:06
一小白
阅读(169)
推荐(0)
MySQL UNION、排序、分组、连接、NULL值处理和正则表达式
摘要:UNION SQL UNION 下面的SQL语句从product和orderdetail表中选取所有不同的pCode(只有不同值) SQL UNION ALL 下面的SQL语句从product和orderdetail表中选取所有的pCode(也有重复值) 带有 WHERE 的 SQL UNION A
阅读全文
posted @
2018-11-08 16:51
一小白
阅读(623)
推荐(0)
数据仓库与联机分析处理
摘要:本文为《数据挖掘:概念与技术》中“数据仓库与联机分析处理”的阅读笔记。 数据仓库与联机分析处理 ETL:用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。 数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据的交互分析,有利于有
阅读全文
posted @
2018-11-08 14:47
一小白
阅读(799)
推荐(0)
数据预处理
摘要:数据预处理 为什么要进行数据预处理? 数据质量 数据质量包括准确性、完整性、一致性、时效性、可信性和可解释性 数据质量的三个要素:准确性、完整性、一致性。 不正确、不完整和不一致的数据是现实世界的大型数据库和数据仓库的共同特点 数据预处理的主要任务 数据清理 数据集成 数据规约 数据变换 数据清理
阅读全文
posted @
2018-11-07 15:26
一小白
阅读(3919)
推荐(0)
认识数据
摘要:数据对象与属性类型 数据集由数据对象组成,一个数据对象代表一个实体。 属性是一个数据字段,表示数据对象的一个特征 标称属性的值是一些符号或者事务的名称 二元属性是一种标称属性,只有两个类别或者状态:0或者1 序数属性可能的值之间具有有意义的序或者秩评定,但是相继值之间的差未知(如大中小) 数值属性
阅读全文
posted @
2018-11-06 23:02
一小白
阅读(464)
推荐(0)
python爬虫使用框架
摘要:scrapy beautifulsoup selenium 滑动验证码 Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Goog
阅读全文
posted @
2018-11-02 22:09
一小白
阅读(206)
推荐(0)
数据挖掘引论
摘要:数据挖掘引论 为什么进行数据挖掘 简单的说就是信息化时代,数据量太大,仅仅靠人自己来发现信息中的可用信息代价太高,所以数据挖掘崛起。 随着数据挖掘崛起,出现了一个名词,数据仓库,它是一种多个异构数据源在但个站点以统一的模式组织的存储,数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。 下
阅读全文
posted @
2018-11-02 15:23
一小白
阅读(130)
推荐(0)
数据挖掘引论
摘要:数据挖掘引论为什么进行数据挖掘简单的说就是信息化时代,数据量太大,仅仅靠人自己来发现信息中的可用信息代价太高,所以数据挖掘崛起。随着数据挖掘崛起,出现了一个名词,数据仓库,它是一种多个异构数据源在但个站点以统一的模式组织的存储,数据仓库技术包括数据清理、数据...
阅读全文
posted @
2018-11-02 15:23
一小白
阅读(170)
推荐(0)
聚类——机器学习(周志华)
摘要:原文链接聚类算法聚类是一种经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇,从而每个簇对应一个潜在的类别。聚类直观...
阅读全文
posted @
2018-11-02 09:43
一小白
阅读(1690)
推荐(0)
特征选择与稀疏学习——机器学习(周志华)
摘要:原文链接上篇主要介绍了经典的降维方法与度量学习,首先从“维数灾难”导致的样本稀疏以及距离难计算两大难题出发,引出了降维的概念,即通过某种数学变换将原始高维空间转变到一个低维的子空间,接着分别介绍了kNN、MDS、PCA、KPCA以及两种经典的流形学习方法,k...
阅读全文
posted @
2018-11-01 19:54
一小白
阅读(3079)
推荐(1)
降维与度量学习——机器学习(周志华)
摘要:原文地址 降维与度量学习 样本的特征数称为维数(dimensionality),当维数非常大时,也就是现在所说的“维数灾难”,具体表现在:在高维情形下,数据样本将变得十分稀疏,因为此时要满足训练样本为“密采样”的总体样本数目是一个触不可及的天文数字,谓可远观而不可亵玩焉…训练样本的稀疏使得其代表总体
阅读全文
posted @
2018-11-01 16:46
一小白
阅读(1274)
推荐(1)
集成学习——机器学习(周志华)
摘要:集成学习目录:个体和集成BoostingBagging与随机森林Bagging随机森林综合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性增强内容:个体和集成集成学习是通过构建并结合多个学习器来完成学习任务,如下图,集成学习通过将多个学习器结合,获...
阅读全文
posted @
2018-11-01 15:45
一小白
阅读(2955)
推荐(1)