08 2019 档案
摘要:1.度量一个程序(算法)执行时间的两种方法 事后统计的方法 这种方法可行, 但是有两个问题: 一是要想对设计的算法的运行性能进行评测,需要实际运行该程序; 二是所得时间的统计量依赖于计算机的硬件、软件等环境因素, 这种方式,要在同一台计算机的相同状态下运行,才能比较那个算法速度更快。 事前估算的方法
阅读全文
摘要:排序算法 1.排序算法的介绍 排序称排序算法(Sort Algorithm),排序是将一组数据依指定的顺序进行排列的过程。 2.排序的分类 1)内部排序: 指将需要处理的所有数据都加载到内部存储器(内存)中进行排序。 2)外部排序法: 数据量过大,无法全部加载到内存中,需要借助外部存储(文件等)进行
阅读全文
摘要:总的来说 TCP协议提供可靠的服务, UDP协议提供高效率的服务。 高可靠性的TCP服务提供面向连接的服务,主要用于一次传输大量报文的情形, 如文件传输,远程登录等; 高效率的UDP协议提供无连接的数据报服务,用于一次传输少量的报文。 即使发生传输错误,也可以重新传输并且不会为此付出多少代价。 TC
阅读全文
摘要:package com.diyo.offer; public class FindNum { public static void main(String[] args) { int count = 0;// 用于统计找的AABCC类型的数字的个数 for (int i = 10000; i <= 99999; i++) { if (isNum(i)) { System.out.print(i +
阅读全文
摘要:数据库逻辑结构单元 0:数据库逻辑结构包括表空间,段,区,数据块 1、数据库在逻辑上是由多个表间组成的,表空间中存储的对象是段; 2、段,由区组成,比如数据段,索引段,和undo段; 3、区,是磁盘分配的最小单位,是物理上连续的块,一个extent的大小是1M,由64个页组成; 4、块(页),在My
阅读全文
摘要:题目:一只青蛙一次可以跳上1级台阶,也可以跳上2级……它也可以跳上n级。求该青蛙跳上一个n级的台阶总共有多少种跳法。 FrogJumping 青蛙跳台阶
阅读全文
摘要:chkconfig命令主要用来更新(启动或停止)和查询系统服务的运行级信息。谨记chkconfig不是立即自动禁止或激活一个服务,它只是简单的改变了符号连接。 使用语法: chkconfig 在没有参数运行时,显示用法。如果加上服务名,那么就检查这个服务是否在当前运行级启动。如果是,返回true,否
阅读全文
摘要:表名和字段 –1.学生表 Student(s_id,s_name,s_birth,s_sex) –学生编号,学生姓名, 出生年月,学生性别 –2.课程表 Course(c_id,c_name,t_id) – –课程编号, 课程名称, 教师编号 –3.教师表 Teacher(t_id,t_name)
阅读全文
摘要:public class MysqlUtil { /** * 链接数据库 */ /** * 方法一: * 加载驱动的方法不止一种,但这种最常用 */ public static Connection getConnectionOne(String database,String username,String password){ try { Class.forName("com.mysql.jd
阅读全文
摘要:java JDBC编程流程步骤 JDBC:Java Data Base Connection JDBC是用于运行sql语句并从数据库中获取新新的java API. JDBC是用来(让我们的程序)通过网络来操作数据库的,作用非常重要;JDBC技术也是Java核心技术之中的一个。 是使用JDBC驱动程序
阅读全文
摘要:JDBC API JDBC API 是一系列的接口,它使得应用程序能够进行数据库联接,执行SQL语句,并且得到返回结果。 Driver 接口 Java.sql.Driver 接口是所有 JDBC 驱动程序需要实现的接口。这个接口是提供给数据库厂商使用的,不同数据库厂商提供不同的实现 在程序中不需要直
阅读全文
摘要:JDBC驱动程序分类 JDBC驱动程序:各个数据库厂商根据JDBC的规范制作的 JDBC 实现类的类库 JDBC驱动程序总共有四种类型: 第一类:JDBC-ODBC桥。 第二类:部分本地API部分Java的驱动程序。 第三类:JDBC网络纯Java驱动程序。 第四类:本地协议的纯 Java 驱动程序
阅读全文
摘要:JDBC理论知识 JDBC基础 JDBC(Java Database Connectivity)是一个独立于特定数据库管理系统、通用的SQL数据库存取和操作的公共接口(一组API), 定义了用来访问数据库的标准Java类库,使用这个类库可以以一种标准的方法、方便地访问数据库资源 JDBC为访问不同的
阅读全文
摘要:基本介绍 时间复杂度O(n^2) 冒泡排序(Bubble Sorting)的基本思想是:通过对待 排序序列从前向后(从下标较小的元素开始),依次比较 相邻元素的值,若发现逆序则交换,使值较大 的元素逐渐从前移向后部,就象水底下的气泡一样逐渐 向上冒。因为排序的过程中,各元素不断接近自己的位置,如果一
阅读全文
摘要:1. 第一范式(1NF)(针对具体某一列) 所谓第一范式(1NF)是指在关系模型中,对域添加的一个规范要求,所有的域都应该是原子性的,即数据库表的每一列都是不可分割的原子数据项,而不能是集合,数组,记录等非原子数据项。即实体中的某个属性有多个值时,必须拆分为不同的属性。在符合第一范式(1NF)表中的
阅读全文
摘要:linux下top命令详细介绍 top 命令是 Linux 下常用的系统资源占用查看及性能分析工具,能够实时显示系统中各个进程的资源(比如cpu、内存的使用)占用状况,top命令的执行结果是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户终止该程序
阅读全文
摘要:Linux下显示系统进程的命令ps,最常用的有ps -ef 和ps aux。这两个到底有什么区别呢?两者没太大差别,讨论这个问题,要追溯到Unix系统中的两种风格,System V风格和BSD 风格,ps aux最初用到Unix Style中,而ps -ef被用在System V Style中,两者
阅读全文
摘要:@Testdef functionTest() = { Logger.getLogger("org").setLevel(Level.WARN) val spark = getSpark("functionTest") val sc = spark.sparkContext import spark
阅读全文
摘要:import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.hive.HiveContextimport org.apache.spar
阅读全文
摘要:1.1 返回时间类型 yyyy-MM-dd HH:mm:ss public static Date getNowDate() { Date currentTime = new Date(); SimpleDateFormat formatter = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); String dateString = formatter.
阅读全文
摘要:一、流式DataFrames/Datasets的结构类型推断与划分 ◆ 默认情况下,基于文件源的结构化流要求必须指定schema,这种限制确保即 使在失败的情况下也会使用一致的模式来进行流查询。 ◆ 对于特殊用例,可以通过设置spark.sql.streaming.schemaInference =
阅读全文
摘要:StructuredStreaming简单的例子(NewAPI)(wordCount)
阅读全文
摘要:使用流式DataSets和流式DataFrames的API
流式DataFrames/Datasets的结构类型推断与划分
阅读全文
摘要:◆ 基本概念 ◆ 处理Event-time和Late Data ◆ 容错语义
阅读全文
摘要:SparkStreaming简单例子 ◆ 构建第一个Streaming程序: (wordCount) ◆ Spark Streaming 程序最好以使用Maven或者sbt编译出来的独立应用的形式运行。 ◆ 准备工作: 1.引入Spark Streaming的jar 2.scala流计算import
阅读全文
摘要:SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。➢ 计算流程➢ 容错性➢ 实
阅读全文
摘要:Storm与SparkStreaming对比
阅读全文
摘要:DStream(Discretized Stream)离散流 ◆ 和Spark基于RDD的概念很相似,Spark Streaming使用离散流 (discretized stream)作为抽象表示,叫做DStream。 ◆ DStream是随时间推移而收到的数据的序列。在内部,每个时间区间收 到的数
阅读全文
摘要:Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。 ◆ 支持从多种数据源获取数据,包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、red
阅读全文
摘要:SparkStreaming支持的业务场景
初识流计算例子
阅读全文
摘要:MapReduce框架原理 3.1 InputFormat数据输入 3.1.1 切片与MapTask并行度决定机制 1.问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。 思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数
阅读全文
摘要:Hadoop序列化 2.1 序列化概述 2.2 自定义bean对象实现序列化接口(Writable) 在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。 具体实现bean对象序列化步骤如下7步。 (1)必须实现Wri
阅读全文
摘要:第1章 MapReduce概述 1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 MapReduce核心编程思想,如图所示。 1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例
阅读全文
摘要:<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the NOTICE
阅读全文
摘要:1 集群间数据拷贝
2 小文件存档
3 回收站
4 快照管理
阅读全文
摘要:kettle的系列教程 kettle--window开发环境和linux运行环境的迁移 kettle的输入输出组件和脚本组件 kettle--变量的使用 kettle的资源库 kettle的job kettle的hello world 出处:http://www.cnblogs.com/dongdo
阅读全文
摘要:Kettle基本使用
Kettle资源库
Kettle运行方式
阅读全文
摘要:#流程控制结构/*顺序、分支、循环 */ #一、分支结构#1.if函数/*语法:if(条件,值1,值2)功能:实现双分支应用在begin end中或外面 */ #2.case结构/*语法:情况1:类似于switchcase 变量或表达式when 值1 then 语句1;when 值2 then 语句
阅读全文
摘要:含义:一组预先编译好的SQL语句的集合,理解成批处理语句
1、提高代码的重用性
2、简化操作
3、减少了编译次数并且减少了和数据库服务器的连接次数,提高了效率
区别:
存储过程:可以有0个返回,也可以有多个返回,适合做批量插入、批量更新
函数:有且仅有1 个返回,适合做处理数据后返回一个结果
阅读全文
摘要:存储过程和函数:类似于java中的方法
好处:
1、提高代码的重用性
2、简化操作
*/
#存储过程
/*
含义:一组预先编译好的SQL语句的集合,理解成批处理语句
1、提高代码的重用性
2、简化操作
3、减少了编译次数并且减少了和数据库服务器的连接次数,提高了效率
阅读全文
摘要:系统变量:
全局变量
会话变量
自定义变量:
用户变量
局部变量
阅读全文
摘要:含义:虚拟表,和普通表一样使用
mysql5.1版本出现的新特性,是通过表动态生成的数据
比如:舞蹈班和普通班级的对比
创建语法的关键字 是否实际占用物理空间 使用
视图 create view 只是保存了sql逻辑 增删改查,只是一般不能增删改
表 create table 保存了数据 增删改查
阅读全文
摘要:事务:
一个或一组sql语句组成一个执行单元,这个执行单元要么全部执行,要么全部不执行。
阅读全文
摘要:又称为自增长列
含义:可以不用手动的插入值,系统提供默认的序列值
特点:
1、标识列必须和主键搭配吗?不一定,但要求是一个key
2、一个表可以有几个标识列?至多一个!
3、标识列的类型只能是数值型
4、标识列可以通过 SET auto_increment_increment=3;设置步长
可以通过 手动插入值,设置起始值
阅读全文
摘要:常见约束
/*
含义:一种限制,用于限制表中的数据,为了保证表中的数据的准确和可靠性
分类:六大约束
NOT NULL:非空,用于保证该字段的值不能为空
比如姓名、学号等
DEFAULT:默认,用于保证该字段有默认值
比如性别
PRIMARY KEY:主键,用于保证该字段的值具有唯一性,并且非空
比如学号、员工编号等
UNIQUE:唯一,用于保证该字段的值具有唯一性,可以为空
比如座位号
CHECK:检查约束【mysql中不支持】
比如年龄、性别
FOREIGN KEY:外键,用于限制两个表的关系,用于保证该字段的值必须来自于主表的关联列的值
在从表添加外键约束,用于引用主表中某列的值
比如学生表的专业编号,员工表的部门编号,员工表的工种编号
阅读全文
摘要:#常见的数据类型/*数值型: 整型 小数: 定点数 浮点数字符型: 较短的文本:char、varchar 较长的文本:text、blob(较长的二进制数据) 日期型: */ #一、整型/*分类:tinyint、smallint、mediumint、int/integer、bigint1 2 3 4
阅读全文
摘要:一、库的管理
创建、修改、删除
二、表的管理
创建、修改、删除
创建: create
修改: alter
删除: drop
阅读全文
摘要:数据操作语言:
插入:insert
修改:update
删除:delete
阅读全文
摘要:union 联合 合并:将多条查询语句的结果合并成一个结果
语法:
查询语句1
union
查询语句2
union
...
应用场景:
要查询的结果来自于多个表,且多个表没有直接的连接关系,但查询的信息一致时
特点:★
1、要求多条查询语句的查询列数是一致的!
2、要求多条查询语句的查询的每一列的类型和顺序最好一致
3、union关键字默认去重,如果使用union all 可以包含重复项
阅读全文
摘要:应用场景:当要显示的数据,一页显示不全,需要分页提交sql请求
语法:
select 查询列表
from 表
【join type join 表2
on 连接条件
where 筛选条件
group by 分组字段
having 分组后的筛选
order by 排序的字段】
limit 【offset,】size;
offset要显示条目的起始索引(起始索引从0开始)
size 要显示的条目个数
特点:
①limit语句放在查询语句的最后
②公式
要显示的页数 page,每页的条目数size
select 查询列表
from 表
limit (page-1)*size,size;
阅读全文
摘要:含义:
出现在其他语句中的select语句,称为子查询或内查询
外部的查询语句,称为主查询或外查询
分类:
按子查询出现的位置:
select后面:
仅仅支持标量子查询
from后面:
支持表子查询
where或having后面:★
标量子查询(单行) √
列子查询 (多行) √
行子查询
exists后面(相关子查询)
表子查询
按结果集的行列数不同:
标量子查询(结果集只有一行一列)
列子查询(结果集只有一列多行)
行子查询(结果集有一行多列)
表子查询(结果集一般为多行多列)
阅读全文
摘要:语法:
select 查询列表
from 表1 别名 【连接类型】
join 表2 别名
on 连接条件
【where 筛选条件】
【group by 分组】
【having 筛选条件】
【order by 排序列表】
分类:
内连接(★):inner
外连接
左外(★):left 【outer】
右外(★):right 【outer】
全外:full【outer】
交叉连接:cross
阅读全文
摘要:含义:又称多表查询,当查询的字段来自于多个表时,就会用到连接查询
笛卡尔乘积现象:表1 有m行,表2有n行,结果=m*n行
发生原因:没有有效的连接条件
如何避免:添加有效的连接条件
分类:
按年代分类:
sql92标准:仅仅支持内连接
sql99标准【推荐】:支持内连接+外连接(左外和右外)+交叉连接
按功能分类:
内连接:
等值连接
非等值连接
自连接
外连接:
左外连接
右外连接
全外连接
交叉连接
阅读全文
摘要:1 DataNode工作机制
2 数据完整性
3 掉线时限参数设置
4 服役新数据节点
5 退役旧数据节点
6 Datanode多目录配置
阅读全文
摘要:1 NN和2NN工作机制
2 Fsimage和Edits解析
3 CheckPoint时间设置
4 NameNode故障处理
5 集群安全模式
6 NameNode多目录配置
阅读全文
摘要:1 HDFS写数据流程 1.1 剖析文件写入 HDFS写数据流程,如图所示 1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 2)NameNode返回是否可以上传。 3)客户端请求第一个 Block
阅读全文
摘要:2 HDFS的API操作 2.1 HDFS文件上传(测试参数优先级) 1.编写源代码 2.将hdfs-site.xml拷贝到项目的根目录下 3.参数优先级 参数优先级排序:(1)客户端代码中设置的值 >(2)ClassPath下的用户自定义配置文件 >(3)然后是服务器的默认配置 2.2 HDFS文
阅读全文
摘要:HDFS客户端操作 1.HDFS客户端环境准备 1.根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径(例如:D:\Develop\hadoop-2.7.2),如图所示。 图 编译后的hadoop jar包 2.配置HADOOP_HOME环境变量,如图所示。 图 配置HADO
阅读全文
摘要:大数据技术之Hadoop(HDFS) 第一章 HDFS概述 HDFS组成架构 HDFS文件块大小 第二章 HDFS的Shell操作(开发重点) 1.基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2.命令大全 3.常用命令实操 (0)
阅读全文
摘要:语法:
select 查询列表
from 表
【where 筛选条件】
group by 分组的字段
【order by 排序的字段】;
特点:
1、和分组函数一同查询的字段必须是group by后出现的字段
2、筛选分为两类:分组前筛选和分组后筛选
针对的表 位置 连接的关键字
分组前筛选 原始表 group by前 where
分组后筛选 group by后的结果集 group by后 having
阅读全文
摘要:分类:
sum 求和、avg 平均值、max 最大值 、min 最小值 、count 计算个数
特点:
1、sum、avg一般用于处理数值型
max、min、count可以处理任何类型
2、以上分组函数都忽略null值
3、可以和distinct搭配实现去重的运算
4、count函数的单独介绍
一般使用count(*)用作统计行数
、和分组函数一同查询的字段要求是group by后的字段
阅读全文
摘要:#一、字符函数
#二、数学函数
#三、日期函数
#四、其他函数
#五、流程控制函数
阅读全文
摘要:#1、按单个字段排序
#2、添加筛选条件再排序
#3、按表达式排序
#4、按别名排序
#5、按函数排序
#6、按多个字段排序
阅读全文
摘要:第8章 Spark SQL实战 8.1 数据说明 数据集是货品交易数据集。 每个订单可能包含多个货品,每个订单可以产生多次交易,不同的货品有不同的单价。 8.2 加载数据 tbStock: tbStockDetail: tbDate: 注册表: 8.3 计算所有订单中每年的销售单数、销售总额 统计所
阅读全文
摘要:第7章 Spark SQL 的运行原理(了解) 7.1 Spark SQL运行架构 Spark SQL对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树,然后使用规则(Rule)对Tree进行绑定、优化等处理过程。Spark SQ
阅读全文
摘要:第6章 运行Spark SQL CLI Spark SQL CLI可以很方便的在本地运行Hive元数据服务以及从命令行执行查询任务。需要注意的是,Spark SQL CLI不能与Thrift JDBC服务交互。在Spark目录下执行如下命令启动Spark SQL CLI: ./bin/spark-s
阅读全文
摘要:第5章 JDBC/ODBC服务器 Spark SQL也提供JDBC连接支持,这对于让商业智能(BI)工具连接到Spark集群上以 及在多用户间共享一个集群的场景都非常有用。JDBC 服务器作为一个独立的 Spark 驱动 器程序运行,可以在多用户之间共享。任意一个客户端都可以在内存中缓存数据表,对表
阅读全文
摘要:第4章 SparkSQL数据源 4.1 通用加载/保存方法 4.1.1 手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查
阅读全文
摘要:第3章 SparkSQL解析 3.1 新的起始点SparkSession 在老的版本中,SparkSQL提供两种SQL查询起始点,一个叫SQLContext,用于Spark自己提供的SQL查询,一个叫HiveContext,用于连接Hive的查询,SparkSession是Spark最新的SQL查询
阅读全文
摘要:第2章 执行SparkSQL查询 2.1 命令行查询流程 打开Spark shell 例子:查询大于30岁的用户 创建如下JSON文件,注意JSON的格式: {"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19}
阅读全文
摘要:第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 Hive是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写Map
阅读全文
摘要:一、network利用root帐户# service networking restart 或者/etc/init.d/networking restart 二、ifdown/ifup# ifdown eth0# ifup eth0 三、ifconfig# ifconfig eth0 down# i
阅读全文
摘要:简历篇 请自我介绍 请介绍项目 基础篇 基本功 面向对象的特征 final, finally, finalize 的区别 int 和 Integer 有什么区别 重载和重写的区别 抽象类和接口有什么区别 说说反射的用途及实现 说说自定义注解的场景及实现 HTTP 请求的 GET 与 POST 方式的
阅读全文
摘要:八种基本数据类型的大小,以及他们的封装类 引用数据类型 Switch能否用string做参数 equals与==的区别 自动装箱,常量池 Object有哪些公用方法 Java的四种引用,强弱软虚,用到的场景 Hashcode的作用 HashMap的hashcode的作用 为什么重载hashCode方
阅读全文
摘要:一 、java基础1.String和StringBuffer、StringBuild的区别:http://blog.csdn.net/rmn190/article/details/14920132.hashcode和equals方法的关系:http://blog.csdn.net/lijiecao0
阅读全文
摘要:项目介绍 大部分情况,这是一场面试的开门题,面试官问这个问题,主要是考察你的概述能力和全局视野。有的人经常抱怨自己每天在堆业务,但没有成长。事实上,很多情况下确实在堆业务,但并不是没有成长的。并非做中间件或者技术架构才是成长,例如我们的需求分析能力,沟通协作能力,产品思维能力,抽象建模能力等都是一个
阅读全文
摘要:1.什么是B/S架构?什么是C/S架构 C/S(Client/Server),客户端/服务端,桌面应用程序 2.你所知道网络协议有那些? HTTP:超文本传输协议 FTP:文件传输协议 SMPT:简单邮件协议 TELNET:远程终端协议 POP3:邮件读取协议 3.Java都有那些开发平台? 4.什
阅读全文
摘要:Eclipse中构建maven项目的两种方式 方式一: 1.构建maven项目 1.1 新建meven项目,可在Other中找到maven文件夹 1.2 进入maven项目后,点击next 1.3 在Catalog中选择“Internal”,选中webapp之后,点击next 1.4 在Group
阅读全文
摘要:1. Maven的下载 在Maven的官网即可下载,点击访问Apache Maven。 下载后解压即可,解压后目录结构如下: 2. Maven常用配置 2.1环境变量配置 安装maven之前由于maven需要依赖jdk安装,因此需要先将jdk的路径配置成功后再将maven的安装路径进行配置。 添加M
阅读全文
摘要:一、协同过滤算法的原理及实现
二、基于物品的协同过滤算法详解
阅读全文
摘要:推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结。 协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似的,在协同
阅读全文
摘要:and or not
and or not
&&和and:两个条件都为true,结果为true,反之为false
||或or: 只要有一个条件为true,结果为true,反之为false
!或not: 如果连接的条件本身为false,结果为true,反之为false
三、模糊查询
like
between and
in
is null
通配符:
% 任意多个字符,包含0个字符
_ 任意单个字符
#ESCAPE转义字符
#安全等于 <=>
阅读全文
摘要:select 查询列表 from 表名;
USE test; /*使用数据库*/
起别名 AS
去重 DISTINCT
#CONCAT(a,b) 连接
阅读全文
摘要:MySQL安装与使用 图解MySQL程序结构 MySql数据库的安装 DBMS分为两类:– 基于共享文件系统的DBMS (Access )– 基于客户机——服务器的DBMS(MySQL、Oracle、SqlServer) • 社区版(免费)• 企业版(收费)Windows平台下下载:http://d
阅读全文
摘要:MySQL SQL概述 数据库的好处: •实现数据持久化 •使用完整的管理系统统一管理易 数据库的概念: DB:数据库(database):存储数据的“仓库”。它保存了一系列有组织的数据。 DBMS:数据库管理系统(Database Management System)。数据库是通过DBMS创建和操
阅读全文
摘要:稀疏数组sparseArray 应用实例 1) 使用稀疏数组,来保留类似前面的二维数组(棋盘、地图等等) 2) 把稀疏数组存盘,并且可以从新恢复原来的二维数组数 3) 整体思路分析 4) 代码实现 import scala.collection.mutable.ArrayBuffer //稀疏数组-
阅读全文
摘要:第2章 RDD编程(2.3) 2.3 TransFormation 基本RDD Pair类型RDD (伪集合操作 交、并、补、笛卡尔积都支持) 2.3.1 map(func) 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 2.3.2 mapPartitions(func)
阅读全文
摘要:第2章 RDD编程 2.1 编程模型 在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系
阅读全文
摘要:第1章 RDD概念 弹性分布式数据集 1.1 RDD为什么会产生 RDD是Spark的基石,是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢? Hadoop的MapReduce是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最后写入物理存储设备
阅读全文
摘要:第4章 IDEA环境应用 spark shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包的依赖。 4.1 在IDEA中编写WordCount程序 1)创建一个Mave
阅读全文
摘要:Spark安装地址、Standalone模式安装、JobHistoryServer配置、HA配置、Yarn模式安装
阅读全文
摘要:第2章 Spark角色介绍及运行模式 2.1 集群角色 从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点:Master节点主要运行集群管理器的中心化部分,所承载的作用是分配Application到Worker节点,维护Worker节点,Driver,Appl
阅读全文
摘要:第1章 Spark概述 1.1 什么是Spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。 目前,Spark生态系统
阅读全文
摘要:spark启动slave时提示 JAVA_HOME is not set 解决方法: 在sbin目录spark-config.sh 中添加自己的jdk 路径export JAVA_HOME=/home/hadoop/modules/jdk 启动: sbin/start-all.sh
阅读全文

浙公网安备 33010602011771号