iBit

导航

2019年10月10日 #

4、亲和性分析(关联分析)——推荐电影

摘要: 1、主要概念: 找出两个对象共同出现的情况 数据通常为交易信息的数据——从中能看出哪些商品是一起购买的 之前的亲和性分析示例比较简单,适用于商品数量少的情况。但如果规则生成方法像那样简单,计算这些规则所需要的时间将呈指数增长(n个特征规则就有2^n-1:如3项集有7规则——2是因为分为前提和结论(有 阅读全文

posted @ 2019-10-10 11:32 iBit 阅读(802) 评论(1) 推荐(0)

2019年10月8日 #

2、分类问题示例

摘要: 基本概念: 只关注类别这个变量,把一条条数据划分为不同的类 目标:根据已知类别的数据集,经过训练得到一个分类模型,再用模型对类别未知的数据进行分类。 过程思路: 1、准备数据集 Iris植物分类数据集(scikit-learn库里内置的该数据集,可直接导入) 四个特征:sepal length、se 阅读全文

posted @ 2019-10-08 21:38 iBit 阅读(563) 评论(0) 推荐(0)

1、亲和性分析示例

摘要: 基本概念: 根据样本个体之间的相似度 支持度support 置信度confident 示例:如果一个人买了商品X,那么他很有可能购买商品Y (本例有两个特征值0和1,表示是否购买) 过程思路: 1、在numpy中加载数据集 numpy是二维数组,看上去像一张表。 数组的每一项为个体的某项特征值。 数 阅读全文

posted @ 2019-10-08 21:10 iBit 阅读(541) 评论(1) 推荐(0)

2019年9月28日 #

第一章:导论 1.2统计数据的类型

摘要: 统计数据的类型 按照所采用的计量尺度不同分为:分类数据、顺序数据、数值型数据 分类数据:只能归于某一类别的非数字型数据——是对事物进行分类的结果,数据表现为类别,用文字表述。为了便于统计处理,可以用数字代码来表示各个类别。 顺序数据:只能归于某一有序类别的非数字型数据——也是对事物进行分类的结果,但 阅读全文

posted @ 2019-09-28 11:25 iBit 阅读(1529) 评论(0) 推荐(0)

用python搭建数据分析体系

摘要: 思路:从Hive中清洗假工业务数据,通过使用Sqoop工具同步数据到MySQL中,再通过Python调用MySQL中的数据进行分析 工具:pycharm,pandas,numpy,MySQLdb,E-mail 阅读全文

posted @ 2019-09-28 10:27 iBit 阅读(231) 评论(0) 推荐(0)

SQL部署环境和基本语法

摘要: SQL三件法宝:服务器,客户端,数据 服务端:http://pan.baidu.com/s/1bYd1YQ 客户端:http://pan.baidu.com/s/1kVK4gOR 注册码:ccbfc13e-c31d-42ce-8939-3c7e63ed5417 数据源:http://pan.baid 阅读全文

posted @ 2019-09-28 09:36 iBit 阅读(275) 评论(0) 推荐(0)

2018年6月29日 #

数据结构

摘要: https://www.cnblogs.com/wwj9413/category/343542.html 阅读全文

posted @ 2018-06-29 11:28 iBit 阅读(72) 评论(0) 推荐(0)

赫夫曼树

摘要: 哈夫曼树节点个数一定是奇数 假设哈夫曼树是二叉的话,则度为0的结点个数为N,度为2的结点个数为N-1,则结点总数为2N-1。 哈夫曼树的形态不是唯一的,但是它的带权路径长度WPL是唯一的。 如:3,5,6 可以构造出 14 8 6 3 5 或 14 6 8 3 5 这两种形态,所以哈夫曼树形态不唯一 阅读全文

posted @ 2018-06-29 09:46 iBit 阅读(904) 评论(0) 推荐(0)

2018年6月28日 #

树、森林与二叉树相互转化

只有注册用户登录后才能阅读该文。 阅读全文

posted @ 2018-06-28 19:15 iBit 阅读(13) 评论(0) 推荐(0)