posted @ 2023-02-06 09:23
ahu-lichang
阅读(2)
推荐(0)
posted @ 2023-01-28 15:49
ahu-lichang
阅读(0)
推荐(0)
摘要:
HDP: (1) 介绍: HDP全称叫做Hortonworks Data Platform。 Hortonworks数据平台是一款基于Apache Hadoop的是开源数据平台,提供大数据云存储,大数据处理和分析等服务。该平台是专门用来应对多来源和多格式的数据,并使其处理起来能变成简单、更有成本效益
阅读全文
posted @ 2022-02-28 17:01
ahu-lichang
阅读(4543)
推荐(0)
posted @ 2021-12-22 11:13
ahu-lichang
阅读(140)
推荐(0)
posted @ 2021-12-10 21:05
ahu-lichang
阅读(1)
推荐(0)
posted @ 2021-12-10 21:04
ahu-lichang
阅读(1)
推荐(0)
posted @ 2021-12-10 21:03
ahu-lichang
阅读(1)
推荐(0)
摘要:
pom.xml <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
阅读全文
posted @ 2019-10-20 21:37
ahu-lichang
阅读(415)
推荐(0)
摘要:
ES Hadoop spark的区别存(可扩展) hdfs存(可扩展) 不存支持实时查询 hbase支持实时查询 sparkSQL交互式查询支持全文检索 不支持 不支持 帽子和服装 帽子和服服装 数据库:select * from t_a where title like '%大%'全文检索:将存入
阅读全文
posted @ 2019-10-20 21:34
ahu-lichang
阅读(871)
推荐(0)
摘要:
#查看服务状态systemctl status NetworkManager / network#停止服务systemctl stop NetworkManager#启动服务systemctl start NetworkManager#禁止服务开机启动systemctl disable Networ
阅读全文
posted @ 2019-10-20 21:34
ahu-lichang
阅读(372)
推荐(0)
摘要:
1.安装JDK(1.8)2.上传解压Elasticsearch-5.4.33.创建一个普通用户,然后将对于的目录修改为普通用户的所属用户和所属组4.修改配置文件config/elasticsearch.yml network.host: 192.168.100.2115.启动ES,发现报错 bin/
阅读全文
posted @ 2019-10-20 21:33
ahu-lichang
阅读(1421)
推荐(0)
摘要:
http://www.elastic.co/guide/en/elasticsearch/reference/current/setup-configuration.htmlhttps://github.com/elastic/elasticsearch###【在多台机器上执行下面的命令】####e
阅读全文
posted @ 2019-10-20 21:32
ahu-lichang
阅读(362)
推荐(0)
摘要:
数据库三大范式(1NF,2NF,3NF)及ER图 百度官方解释: 设计关系数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式,各种范式呈递次规范,越高的范式数据库冗余越小。 目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、
阅读全文
posted @ 2019-05-21 14:44
ahu-lichang
阅读(49803)
推荐(5)
摘要:
win10下Spark的环境搭建 2018-08-19 18:36:45 一、jdk 1.8.0 安装与配置 二、scala 2.11.8 安装与配置http://www.scala-lang.org/download/2.11.8.html 上面两步见《win10下安装scala》 三、spark
阅读全文
posted @ 2018-08-19 19:13
ahu-lichang
阅读(3694)
推荐(1)
摘要:
MySQL安装详细图解 2018-08-19 08:32:33 一、MYSQL的安装 1、打开下载的mysql安装文件mysql-5.0.27-win64.zip,双击解压缩,运行“setup.exe”。 2、选择安装类型,有“Typical(默认)”、“Complete(完全)”、“Custom(
阅读全文
posted @ 2018-08-19 09:07
ahu-lichang
阅读(716)
推荐(0)
摘要:
format()函数 format()函数:将数据内容格式化的,可以将数据格式化为整数或者带几位小数的浮点数(四舍五入)。
阅读全文
posted @ 2018-08-17 19:13
ahu-lichang
阅读(12030)
推荐(0)
摘要:
substr()函数 1、substr(str,pos); 2、substr(str from pos); 3、substr(str,pos,len);//str:字符串,pos:起始位置,len:截断长度 4、substr(str from pos len);
阅读全文
posted @ 2018-08-17 18:56
ahu-lichang
阅读(51849)
推荐(1)
摘要:
floor()函数 和round()函数的区别 2018-08-17 09:40:00 1、floor()函数:取整,保留整数部分,舍弃小数部分。 2、round()函数:四舍五入。round(x,d):x是要处理的数,d是保留的小数位数。round(x):相当于round(x,0)。
阅读全文
posted @ 2018-08-17 09:46
ahu-lichang
阅读(4895)
推荐(0)
摘要:
join连接 table1: table2: 笛卡尔积: 就是一个表里的记录要分别和另外一个表的记录匹配为一条记录,即如果表A有2条记录,表B也有2条记录,经过笛卡尔运算之后就应该有2*2即4条记录。 JOIN:基于表之间的共同字段,将多个表的行结合起来。 有五种连接:自然连接(natural jo
阅读全文
posted @ 2018-08-16 15:04
ahu-lichang
阅读(299)
推荐(0)
摘要:
MySQL UNION操作符 union操作符合并两个或多个 SELECT 语句的结果集。 union:去重 union all:不去重 UNION 结果集中的列名总是等于 UNION 中第一个 SELECT 语句中的列名。 UNION 内部的每个 SELECT 语句必须拥有相同数量的列。列也必须拥
阅读全文
posted @ 2018-08-16 11:37
ahu-lichang
阅读(205)
推荐(0)
摘要:
MySQL存储过程 2018-08-15 23:00:06 1、存储过程介绍 (1) 定义:存储过程是存储在数据库目录中的一段声明性SQL语句。 触发器,其他存储过程以及java,python,php等应用程序可以调用存储过程。 递归存储过程:自身的存储过程。大多数数据库管理系统支持递归存储过程。
阅读全文
posted @ 2018-08-15 14:32
ahu-lichang
阅读(512)
推荐(0)
posted @ 2018-08-13 23:46
ahu-lichang
阅读(10)
推荐(0)
摘要:
kettle学习之Spoon使用 2018-08-04 10:40:01 首先介绍两个博客入门: https://blog.csdn.net/zzq900503/article/details/78543778 https://blog.csdn.net/Install_/article/detai
阅读全文
posted @ 2018-08-01 22:46
ahu-lichang
阅读(9257)
推荐(0)
摘要:
Spark 是一种“One Stack to rule them all”通用的大数据计算框架,期望使用一个技术栈就完美地 解决大数据领域的各种计算任务。 Spark特点:速度快、容易上手开发、超强的通用性、集成Hadoop、极高的活跃度。 Spark的速度比MapReduce快:MR计算模型太死板
阅读全文
posted @ 2017-12-21 17:22
ahu-lichang
阅读(1175)
推荐(0)
摘要:
Pig Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive Hive在Hadoop中扮演数据仓库的角色。Hiv
阅读全文
posted @ 2017-08-19 23:14
ahu-lichang
阅读(2406)
推荐(0)
摘要:
Redis介绍 Redis(REmote DIctionary Server)是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库, 并提供多种语言的API。 它通常被称为数据结构服务器,因为值(value)可以是 字符串(Strin
阅读全文
posted @ 2017-08-19 17:50
ahu-lichang
阅读(440)
推荐(0)
摘要:
随机森林(可用于分类和回归) 随机森林主要应用于回归和分类。 随机森林在运算量没有显著提高的前提下提高了预测精度。 1、简介 随机森林由多棵决策树构成,且森林中的每一棵决策树之间没有关联,模型的最终输出由森林中的每一棵决策树共同决定。 处理分类问题时,对于测试样本,森林中每棵决策树会给出最终类别,最
阅读全文
posted @ 2017-08-18 22:54
ahu-lichang
阅读(30366)
推荐(0)
摘要:
java程序员面试笔试宝典P260勘误!!! bug:当数组中只有最后一个元素时,怎么处理? 当程序中除第一个元素后,剩下的的元素时偶数个的话,就不用考虑剩下最后一个了。 但是如果是奇数的话,两两相邻元素比较后,必然会剩下最后一个元素。
阅读全文
posted @ 2017-08-10 18:39
ahu-lichang
阅读(521)
推荐(0)
摘要:
Java程序员面试笔试宝典P232勘误,程序有BUG!!!
阅读全文
posted @ 2017-08-07 18:57
ahu-lichang
阅读(375)
推荐(0)
摘要:
《chang哥教你一天搞定Scala》
阅读全文
posted @ 2017-07-19 20:55
ahu-lichang
阅读(25627)
推荐(1)
摘要:
win10安装scala详细步骤 1、下载安装JDK 2、配置Java环境变量 JAVA_HOME:jdk的安装目录 Path:%JAVA_HOME%\bin; Classpath:%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar; 3、验证Java是
阅读全文
posted @ 2017-07-17 23:00
ahu-lichang
阅读(11434)
推荐(3)
摘要:
SVM算法比较复杂,数学功底要求很高。 详见七月大神博客《 支持向量机通俗导论(理解SVM的三层境界)》
阅读全文
posted @ 2017-07-15 09:50
ahu-lichang
阅读(632)
推荐(0)
摘要:
协同过滤推荐算法分为基于用户的协同过滤推荐UserCF和基于物品的协同过滤推荐ItemCF。介绍见《协同过滤的实现步骤》 1、指导思想 这种过滤算法的有效性基础在于: 1、用户偏好具有相似性,即用户可分类。这种分类的特征越明显,推荐准确率越高 2、物品之间具有相似性,即偏好某物品的人,都很可能也同时
阅读全文
posted @ 2017-07-14 21:32
ahu-lichang
阅读(854)
推荐(0)
摘要:
Lineage逻辑回归分类算法 线性回归和逻辑回归参考文章: http://blog.csdn.net/viewcode/article/details/8794401 http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html
阅读全文
posted @ 2017-07-14 20:29
ahu-lichang
阅读(9140)
推荐(0)
摘要:
决策树分类算法 1、概述 决策树(decision tree)——是一种被广泛使用的分类算法。 相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置 在实际应用中,对于探测式的知识发现,决策树更加适用。 2、算法思想 通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这
阅读全文
posted @ 2017-07-14 11:04
ahu-lichang
阅读(26404)
推荐(0)
摘要:
K-means聚类算法(事先数据并没有类别之分!所有的数据都是一样的) 1、概述 K-means算法是集简单和经典于一身的基于距离的聚类算法 采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。 该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 2、
阅读全文
posted @ 2017-07-13 17:22
ahu-lichang
阅读(157269)
推荐(26)
摘要:
朴素贝叶斯分类算法 1、朴素贝叶斯分类算法原理 1.1、概述 贝叶斯分类算法是一大类分类算法的总称 贝叶斯分类算法以样本可能属于某类的概率来作为分类依据 朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种 注:朴素的意思是条件概率独立性 P(A|x1x2x3x4)=p(A|x1)*p(A|x2)p(A
阅读全文
posted @ 2017-07-12 21:48
ahu-lichang
阅读(33730)
推荐(3)
摘要:
KNN补充: 1、K值设定为多大? k太小,分类结果易受噪声点影响;k太大,近邻中又可能包含太多的其它类别的点。 (对距离加权,可以降低k值设定的影响) k值通常是采用交叉检验来确定(以k=1为基准) 经验规则:k一般低于训练样本数的平方根 2、类别如何判定最合适? 加权投票法更恰当一些。而具体如何
阅读全文
posted @ 2017-07-11 20:51
ahu-lichang
阅读(565)
推荐(0)
摘要:
需求: 利用一个手写数字“先验数据”集,使用knn算法来实现对手写数字的自动识别; 先验数据(训练数据)集: ♦数据维度比较大,样本数比较多。 ♦ 数据集包括数字0-9的手写体。 ♦每个数字大约有200个样本。 ♦每个样本保持在一个txt文件中。 ♦手写体图像本身的大小是32x32的二值图,转换到t
阅读全文
posted @ 2017-07-11 20:44
ahu-lichang
阅读(11725)
推荐(0)
摘要:
KNN分类算法(先验数据中就有类别之分,未知的数据会被归类为之前类别中的某一类!) 1、KNN介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法。 机器学习,算法本身不是最难的,最难的是: 1、数学建模:把业务中的特性抽象成向量的过程; 2、选取适合模型的数
阅读全文
posted @ 2017-07-11 15:58
ahu-lichang
阅读(47167)
推荐(2)