随笔分类 - 数据分析与挖掘
摘要:1、概念 ElasticSearch是一个高性能,基于Lucene的全文检索服务,是一个分布式的Restful风格的搜索和数据分析引擎,也可以作为NoSQL数据库使用。Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,
阅读全文
摘要:1、概念 HBase是一个分布式的NoSQL数据库,其特点高可靠、高性能、面向列、可伸缩。 适合存储大表数据 ,并且可实时读写大表数据。大表:表的规模可以达到数十亿行以及数百万列 表结构稀疏。稀疏:对于为空的列,并不占用存储空间 数据底层存储于Hadoop HDFS分布式文件系统。 利用ZooKee
阅读全文
摘要:Loader是实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具。 提供可视化向导式的作业配置管理界面; 提供定时调度任务,周期性执行Loader作业; 在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等。 基于开源Sqoop研发,
阅读全文
摘要:Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(MySQL 、 PostgreSQL
阅读全文
摘要:一、数据库设计架构 数据库设计架构有三种模式设计: 1、Shared - Disk 各个处理单元使用自己的私有 CPU和Memory,共享磁盘系统。 典型的代表Oracle RAC,数据共享,可通过增加节点来提高并行处理的能力,扩展能力较好。其类似于SMP(对称多处理)模式,但是当存储器接口达到饱和
阅读全文
摘要:Spark简介 Spark是基于内存的分布式批处理系统,它把任务拆分,然后分配到多个的CPU上进行处理,处理数据时产生的中间产物(计算结果)存放在内存中,减少了对磁盘的I/O操作,大大的提升了数据的处理速度,在数据处理和数据挖掘方面比较占优势。 Spark应用场景 数据处理(Data Process
阅读全文
摘要:1.大数据的概念 维基百科的定义: 大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。 2.大数据主流技术 数据采集: 使用Flume,可进行流式日志数据的收集。 使用Sqoop可以交互关系型数据库,进行导入导出数据。 使用爬虫技术,可在网上爬取海量网页数据。 数据存储与
阅读全文
摘要:手写数字数据集是个非常有名的用于图像识别的数据集。数字识别的过程就是将这些图片与分类结果0-9一一对应起来。我们可以直接从sklearn中加载自带的手写数字数据集: from sklearn.model_selection import train_test_split from sklearn i
阅读全文
摘要:聚类是一种无监督学习,它将相似的对象归到同一个簇中。聚类和分类的最大不同在于,分类的目标事先已知,而聚类的结果类别没有预先定义,聚类和分类的结果相同。 在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记的训练样本的学习来揭示数据的内在性质和规律,如数据的聚类特征。聚类试图将数据集中的样本
阅读全文
摘要:朴素贝叶斯算法 优点: 算法原理和实现简单,常用于文本分类。 对小规模数据表现很好,适合多分类增量式训练任务。 对缺失数据不太敏感。 缺点: 对输入数据的表达形式很敏感 需要计算先验概率,分类决策存在错误率 要求样本之间相互独立,这就是“朴素”的意思,这个限制有时很难做到,或使用者误以为符合而造成错
阅读全文
摘要:K-近邻算法实现: from numpy import * import operator from os import listdir #数据集 def createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labe
阅读全文
摘要:1、构建决策树的过程: from math import log #海洋生物数据,x1为不浮出水面是否可以生存,x2为是否有脚蹼,y为是否属于鱼类 def createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'],
阅读全文
摘要:决策树 优点: - 计算复杂度不高,易于理解和解释,甚至比线性回归更直观; - 与人类做决策思考的思维习惯契合; - 模型可以通过树的形式进行可视化展示; - 可以直接处理非数值型数据,不需要进行哑变量的转化,甚至可以直接处理含缺失值的数据; - 可以处理不相关特征数据。 缺点: - 对于有大量数值
阅读全文
摘要:K-近邻算法 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用范围:数值型和离散型(标称型)。 工作原理: 存在一个样本数据集合,也称训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的
阅读全文
摘要:一、确保你的python安装了这些包 # Check the versions of libraries # Python version import sys print('Python: {}'.format(sys.version)) # scipy import scipy print('s
阅读全文
摘要:1、实现统计学习的方法的步骤如下: (1)得到一个有限的训练数据集合,假设这些数据是独立同分布的。 (2)确定包含所有可能的模型的假设空间,即学习模型的集合。 (3)确定模型选择的准则,即学习的策略。 (4)实现求解最优模型的算法,即学习的算法。 (5)通过学习方法选择最优模型。 (6)利用学习的最
阅读全文
摘要:数据清洗一是为了解决数据质量问题,二是让数据更加适合做挖掘。数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。在这里,小编跟大家介绍一下数据清洗的步骤和方法。 一、检查数据的质量 数据的完整性,
阅读全文
摘要:1、分类检查未知分类或暂时未知分类的数据,其目的是预测数据属于哪一类或将要分到哪一类。分类已知的相似数据用于研究分类规则,然后将这些规则应用于未知分类数据中。2、预测预测是指对数值型连续变量的预测,而不是分类变量。3、关联规则和推荐系统关联规则或关联性分析是指,在大型数据库的事项中找出一般关联模式,
阅读全文