摘要:
基本概念 频繁模式挖掘搜索给定数据及中国反复出现的联系。 购物篮分析:一个例子 频繁项集、闭项集和关联规则 规则的 支持度 和 置信度 是规则兴趣度的两种度量。 一个例子: 支持度 :支持度为2%,意味着分析的所有事务的2%显示计算机和杀毒软件被同时购买 置信度 :置信度60%,意味着购买计算机的顾
阅读全文
posted @ 2018-11-09 16:15
一小白
阅读(839)
推荐(0)
摘要:
```c / 《剑指Offer——名企面试官精讲典型编程题》C++代码 htfeng 2018.10.09 面试题56: 数组中数字出现的次数 题目一:数组中只出现一次的两个数字 题目一分析: 相关数字的二进制表示为: 2 = 0010 3 = 0011 4 = 0100 5 = 0101 6 =
阅读全文
posted @ 2018-11-09 10:06
一小白
阅读(171)
推荐(0)
摘要:
UNION SQL UNION 下面的SQL语句从product和orderdetail表中选取所有不同的pCode(只有不同值) SQL UNION ALL 下面的SQL语句从product和orderdetail表中选取所有的pCode(也有重复值) 带有 WHERE 的 SQL UNION A
阅读全文
posted @ 2018-11-08 16:51
一小白
阅读(623)
推荐(0)
摘要:
本文为《数据挖掘:概念与技术》中“数据仓库与联机分析处理”的阅读笔记。 数据仓库与联机分析处理 ETL:用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。 数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据的交互分析,有利于有
阅读全文
posted @ 2018-11-08 14:47
一小白
阅读(807)
推荐(0)
摘要:
数据预处理 为什么要进行数据预处理? 数据质量 数据质量包括准确性、完整性、一致性、时效性、可信性和可解释性 数据质量的三个要素:准确性、完整性、一致性。 不正确、不完整和不一致的数据是现实世界的大型数据库和数据仓库的共同特点 数据预处理的主要任务 数据清理 数据集成 数据规约 数据变换 数据清理
阅读全文
posted @ 2018-11-07 15:26
一小白
阅读(3922)
推荐(0)
摘要:
数据对象与属性类型 数据集由数据对象组成,一个数据对象代表一个实体。 属性是一个数据字段,表示数据对象的一个特征 标称属性的值是一些符号或者事务的名称 二元属性是一种标称属性,只有两个类别或者状态:0或者1 序数属性可能的值之间具有有意义的序或者秩评定,但是相继值之间的差未知(如大中小) 数值属性
阅读全文
posted @ 2018-11-06 23:02
一小白
阅读(467)
推荐(0)
摘要:
scrapy beautifulsoup selenium 滑动验证码 Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Goog
阅读全文
posted @ 2018-11-02 22:09
一小白
阅读(209)
推荐(0)
摘要:
数据挖掘引论 为什么进行数据挖掘 简单的说就是信息化时代,数据量太大,仅仅靠人自己来发现信息中的可用信息代价太高,所以数据挖掘崛起。 随着数据挖掘崛起,出现了一个名词,数据仓库,它是一种多个异构数据源在但个站点以统一的模式组织的存储,数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。 下
阅读全文
posted @ 2018-11-02 15:23
一小白
阅读(132)
推荐(0)
摘要:
数据挖掘引论为什么进行数据挖掘简单的说就是信息化时代,数据量太大,仅仅靠人自己来发现信息中的可用信息代价太高,所以数据挖掘崛起。随着数据挖掘崛起,出现了一个名词,数据仓库,它是一种多个异构数据源在但个站点以统一的模式组织的存储,数据仓库技术包括数据清理、数据...
阅读全文
posted @ 2018-11-02 15:23
一小白
阅读(171)
推荐(0)
摘要:
原文链接聚类算法聚类是一种经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇,从而每个簇对应一个潜在的类别。聚类直观...
阅读全文
posted @ 2018-11-02 09:43
一小白
阅读(1694)
推荐(0)