2019 年 8月随笔档案 - DiYong

算法的时间复杂度

摘要：1.度量一个程序(算法)执行时间的两种方法事后统计的方法这种方法可行, 但是有两个问题：一是要想对设计的算法的运行性能进行评测，需要实际运行该程序；二是所得时间的统计量依赖于计算机的硬件、软件等环境因素, 这种方式，要在同一台计算机的相同状态下运行，才能比较那个算法速度更快。事前估算的方法阅读全文

posted @ 2019-08-29 17:08 DiYong 阅读(184) 评论(0) 推荐(0)

排序算法

摘要：排序算法 1.排序算法的介绍排序称排序算法（Sort Algorithm），排序是将一组数据依指定的顺序进行排列的过程。 2.排序的分类 1）内部排序：指将需要处理的所有数据都加载到内部存储器（内存）中进行排序。 2）外部排序法：数据量过大，无法全部加载到内存中，需要借助外部存储（文件等）进行阅读全文

posted @ 2019-08-29 16:11 DiYong 阅读(173) 评论(0) 推荐(0)

什么情况下适合用UDP协议，什么情况下适合用TCP协议？

摘要：总的来说 TCP协议提供可靠的服务， UDP协议提供高效率的服务。高可靠性的TCP服务提供面向连接的服务，主要用于一次传输大量报文的情形，如文件传输，远程登录等；高效率的UDP协议提供无连接的数据报服务，用于一次传输少量的报文。即使发生传输错误，也可以重新传输并且不会为此付出多少代价。 TC 阅读全文

posted @ 2019-08-29 12:28 DiYong 阅读(4310) 评论(1) 推荐(0)

用java编程在10000到99999中的数字中找到aabcc类型的数字

摘要：package com.diyo.offer; public class FindNum { public static void main(String[] args) { int count = 0;// 用于统计找的AABCC类型的数字的个数 for (int i = 10000; i <= 99999; i++) { if (isNum(i)) { System.out.print(i + 阅读全文

posted @ 2019-08-29 12:22 DiYong 阅读(660) 评论(0) 推荐(0)

数据库逻辑结构单元

摘要：数据库逻辑结构单元 0：数据库逻辑结构包括表空间，段，区，数据块 1、数据库在逻辑上是由多个表间组成的，表空间中存储的对象是段； 2、段，由区组成，比如数据段，索引段，和undo段； 3、区，是磁盘分配的最小单位，是物理上连续的块，一个extent的大小是1M，由64个页组成； 4、块(页)，在My 阅读全文

posted @ 2019-08-29 12:15 DiYong 阅读(545) 评论(0) 推荐(0)

青蛙跳台阶

摘要：题目：一只青蛙一次可以跳上1级台阶，也可以跳上2级……它也可以跳上n级。求该青蛙跳上一个n级的台阶总共有多少种跳法。 FrogJumping 青蛙跳台阶阅读全文

posted @ 2019-08-28 18:45 DiYong 阅读(262) 评论(0) 推荐(0)

Linux下chkconfig命令详解

摘要：chkconfig命令主要用来更新（启动或停止）和查询系统服务的运行级信息。谨记chkconfig不是立即自动禁止或激活一个服务，它只是简单的改变了符号连接。使用语法： chkconfig 在没有参数运行时，显示用法。如果加上服务名，那么就检查这个服务是否在当前运行级启动。如果是，返回true，否阅读全文

posted @ 2019-08-28 17:57 DiYong 阅读(4306) 评论(0) 推荐(0)

MySQL数据库练习题

摘要：表结构单表查询题目及答案多表查询题目及答案阅读全文

posted @ 2019-08-28 16:44 DiYong 阅读(1706) 评论(0) 推荐(0)

MySQL经典练习题及答案，常用SQL语句练习50题

摘要：表名和字段 –1.学生表 Student(s_id,s_name,s_birth,s_sex) –学生编号,学生姓名, 出生年月,学生性别 –2.课程表 Course(c_id,c_name,t_id) – –课程编号, 课程名称, 教师编号 –3.教师表 Teacher(t_id,t_name) 阅读全文

posted @ 2019-08-28 16:31 DiYong 阅读(44428) 评论(6) 推荐(5)

Java mysql数据库连接Demo1

摘要：public class MysqlUtil { /** * 链接数据库 */ /** * 方法一： * 加载驱动的方法不止一种，但这种最常用 */ public static Connection getConnectionOne(String database,String username,String password){ try { Class.forName("com.mysql.jd 阅读全文

posted @ 2019-08-28 01:28 DiYong 阅读(939) 评论(0) 推荐(0)

java JDBC编程流程步骤

摘要：java JDBC编程流程步骤 JDBC：Java Data Base Connection JDBC是用于运行sql语句并从数据库中获取新新的java API. JDBC是用来（让我们的程序）通过网络来操作数据库的，作用非常重要；JDBC技术也是Java核心技术之中的一个。是使用JDBC驱动程序阅读全文

posted @ 2019-08-28 01:24 DiYong 阅读(687) 评论(0) 推荐(0)

JDBC API阐述

摘要：JDBC API JDBC API 是一系列的接口，它使得应用程序能够进行数据库联接，执行SQL语句，并且得到返回结果。 Driver 接口 Java.sql.Driver 接口是所有 JDBC 驱动程序需要实现的接口。这个接口是提供给数据库厂商使用的，不同数据库厂商提供不同的实现在程序中不需要直阅读全文

posted @ 2019-08-28 01:15 DiYong 阅读(484) 评论(0) 推荐(0)

JDBC驱动程序分类

摘要：JDBC驱动程序分类 JDBC驱动程序：各个数据库厂商根据JDBC的规范制作的 JDBC 实现类的类库 JDBC驱动程序总共有四种类型：第一类：JDBC-ODBC桥。第二类：部分本地API部分Java的驱动程序。第三类：JDBC网络纯Java驱动程序。第四类：本地协议的纯 Java 驱动程序阅读全文

posted @ 2019-08-28 00:59 DiYong 阅读(1067) 评论(0) 推荐(0)

JDBC理论知识

摘要：JDBC理论知识 JDBC基础 JDBC(Java Database Connectivity)是一个独立于特定数据库管理系统、通用的SQL数据库存取和操作的公共接口（一组API），定义了用来访问数据库的标准Java类库，使用这个类库可以以一种标准的方法、方便地访问数据库资源 JDBC为访问不同的阅读全文

posted @ 2019-08-28 00:46 DiYong 阅读(215) 评论(0) 推荐(0)

冒泡排序（Bubble Sorting）

摘要：基本介绍时间复杂度O(n^2) 冒泡排序（Bubble Sorting）的基本思想是：通过对待排序序列从前向后（从下标较小的元素开始）,依次比较相邻元素的值，若发现逆序则交换，使值较大的元素逐渐从前移向后部，就象水底下的气泡一样逐渐向上冒。因为排序的过程中，各元素不断接近自己的位置，如果一阅读全文

posted @ 2019-08-27 00:40 DiYong 阅读(430) 评论(0) 推荐(0)

Java 中几种常用设计模式

摘要：Java 中常用设计模式阅读全文

posted @ 2019-08-26 22:53 DiYong 阅读(3120) 评论(0) 推荐(1)

数据库设计六大范式

摘要：1. 第一范式（1NF）（针对具体某一列）所谓第一范式（1NF）是指在关系模型中，对域添加的一个规范要求，所有的域都应该是原子性的，即数据库表的每一列都是不可分割的原子数据项，而不能是集合，数组，记录等非原子数据项。即实体中的某个属性有多个值时，必须拆分为不同的属性。在符合第一范式（1NF）表中的阅读全文

posted @ 2019-08-26 19:30 DiYong 阅读(5416) 评论(0) 推荐(1)

linux下top命令详细介绍

摘要：linux下top命令详细介绍 top 命令是 Linux 下常用的系统资源占用查看及性能分析工具，能够实时显示系统中各个进程的资源(比如cpu、内存的使用)占用状况，top命令的执行结果是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户终止该程序阅读全文

posted @ 2019-08-26 10:38 DiYong 阅读(8352) 评论(0) 推荐(0)

LINUX进程ps -ef和ps -aux的区别及格式详解

摘要：Linux下显示系统进程的命令ps，最常用的有ps -ef 和ps aux。这两个到底有什么区别呢？两者没太大差别，讨论这个问题，要追溯到Unix系统中的两种风格，System Ｖ风格和BSD 风格，ps aux最初用到Unix Style中，而ps -ef被用在System V Style中，两者阅读全文

posted @ 2019-08-26 10:26 DiYong 阅读(24134) 评论(0) 推荐(0)

SparkSQL DSL 随便写写

摘要：@Testdef functionTest() = { Logger.getLogger("org").setLevel(Level.WARN) val spark = getSpark("functionTest") val sc = spark.sparkContext import spark 阅读全文

posted @ 2019-08-26 10:10 DiYong 阅读(1270) 评论(0) 推荐(0)

SparkSQL DSL开发（Old）

摘要：import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.hive.HiveContextimport org.apache.spar 阅读全文

posted @ 2019-08-26 10:03 DiYong 阅读(557) 评论(0) 推荐(0)

Java日期格式转换

摘要：1.1 返回时间类型 yyyy-MM-dd HH:mm:ss public static Date getNowDate() { Date currentTime = new Date(); SimpleDateFormat formatter = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); String dateString = formatter. 阅读全文

posted @ 2019-08-26 09:09 DiYong 阅读(20188) 评论(0) 推荐(0)

SQL关键字的执行顺序

摘要：Mysql执行顺序阅读全文

posted @ 2019-08-26 09:03 DiYong 阅读(2747) 评论(0) 推荐(0)

StructuredStreaming基础操作和窗口操作

摘要：一、流式DataFrames/Datasets的结构类型推断与划分 ◆ 默认情况下，基于文件源的结构化流要求必须指定schema，这种限制确保即使在失败的情况下也会使用一致的模式来进行流查询。 ◆ 对于特殊用例，可以通过设置spark.sql.streaming.schemaInference = 阅读全文

posted @ 2019-08-23 09:16 DiYong 阅读(1181) 评论(0) 推荐(0)

StructuredStreaming简单的例子（NewAPI）

摘要：StructuredStreaming简单的例子（NewAPI）（wordCount）阅读全文

posted @ 2019-08-22 16:21 DiYong 阅读(578) 评论(0) 推荐(0)

StructuredStreaming(New)

摘要：使用流式DataSets和流式DataFrames的API 流式DataFrames/Datasets的结构类型推断与划分阅读全文

posted @ 2019-08-22 14:47 DiYong 阅读(349) 评论(0) 推荐(0)

StructuredStreaming编程模型

摘要：◆ 基本概念 ◆ 处理Event-time和Late Data ◆ 容错语义阅读全文

posted @ 2019-08-22 12:24 DiYong 阅读(233) 评论(0) 推荐(0)

SparkStreaming简单例子（oldAPI）

摘要：SparkStreaming简单例子 ◆ 构建第一个Streaming程序：　（wordCount） ◆ Spark Streaming 程序最好以使用Maven或者sbt编译出来的独立应用的形式运行。 ◆ 准备工作： 1.引入Spark Streaming的jar 2.scala流计算import 阅读全文

posted @ 2019-08-22 00:17 DiYong 阅读(400) 评论(0) 推荐(0)

SparkStreaming架构

摘要：SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统，可以对多种数据源（如Kdfka、Flume、Twitter、Zero和TCP 套接字）进行类似Map、Reduce和Join等复杂操作，并将结果保存到外部文件系统、数据库或应用到实时仪表盘。➢ 计算流程➢ 容错性➢ 实阅读全文

posted @ 2019-08-21 16:11 DiYong 阅读(178) 评论(0) 推荐(0)

Storm与SparkStreaming对比

摘要：Storm与SparkStreaming对比阅读全文

posted @ 2019-08-21 16:06 DiYong 阅读(270) 评论(0) 推荐(0)

SparkStreaming-DStream（Discretized Stream）

摘要：DStream（Discretized Stream）离散流 ◆ 和Spark基于RDD的概念很相似，Spark Streaming使用离散流（discretized stream）作为抽象表示，叫做DStream。 ◆ DStream是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数阅读全文

posted @ 2019-08-21 16:00 DiYong 阅读(546) 评论(0) 推荐(0)

SparkStreaming概述

摘要：Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。 ◆ 支持从多种数据源获取数据，包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、red 阅读全文

posted @ 2019-08-21 15:41 DiYong 阅读(193) 评论(0) 推荐(0)

SparkStreaming支持的业务场景

摘要：SparkStreaming支持的业务场景初识流计算例子阅读全文

posted @ 2019-08-21 13:56 DiYong 阅读(604) 评论(0) 推荐(0)

你怎么改造和重新设计一个ATM银行自动取款机

摘要：阅读全文

posted @ 2019-08-19 20:32 DiYong 阅读(686) 评论(0) 推荐(0)

分蛋糕

摘要：阅读全文

posted @ 2019-08-19 20:09 DiYong 阅读(115) 评论(0) 推荐(0)

下水道的盖子为什么是圆形的

摘要：阅读全文

posted @ 2019-08-19 20:07 DiYong 阅读(252) 评论(0) 推荐(0)

美国有多少辆汽车

摘要：阅读全文

posted @ 2019-08-19 20:05 DiYong 阅读(260) 评论(0) 推荐(0)

MapReduce框架原理

摘要：MapReduce框架原理 3.1 InputFormat数据输入 3.1.1 切片与MapTask并行度决定机制 1．问题引出 MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数阅读全文

posted @ 2019-08-19 02:52 DiYong 阅读(258) 评论(0) 推荐(0)

Hadoop序列化

摘要：Hadoop序列化 2.1 序列化概述 2.2 自定义bean对象实现序列化接口（Writable）在企业开发中往往常用的基本序列化类型不能满足所有需求，比如在Hadoop框架内部传递一个bean对象，那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。（1）必须实现Wri 阅读全文

posted @ 2019-08-19 02:50 DiYong 阅读(436) 评论(0) 推荐(0)

MapReduce概述

摘要：第1章 MapReduce概述 1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 MapReduce核心编程思想，如图所示。 1）分布式的运算程序往往需要分成至少2个阶段。 2）第一个阶段的MapTask并发实例阅读全文

posted @ 2019-08-19 01:28 DiYong 阅读(520) 评论(0) 推荐(0)

hdfs-default.xml

摘要：<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the NOTICE 阅读全文

posted @ 2019-08-19 01:10 DiYong 阅读(722) 评论(0) 推荐(0)

HDFS 2.X新特性

摘要：1 集群间数据拷贝 2 小文件存档 3 回收站 4 快照管理阅读全文

posted @ 2019-08-19 01:07 DiYong 阅读(242) 评论(0) 推荐(0)

kettle的系列教程

摘要：kettle的系列教程 kettle--window开发环境和linux运行环境的迁移 kettle的输入输出组件和脚本组件 kettle--变量的使用 kettle的资源库 kettle的job kettle的hello world 出处：http://www.cnblogs.com/dongdo 阅读全文

posted @ 2019-08-18 03:41 DiYong 阅读(394) 评论(0) 推荐(0)

Kettle基本使用

摘要：Kettle基本使用 Kettle资源库 Kettle运行方式阅读全文

posted @ 2019-08-18 02:53 DiYong 阅读(1652) 评论(0) 推荐(0)

MySQL流程控制结构

摘要：#流程控制结构/*顺序、分支、循环 */ #一、分支结构#1.if函数/*语法：if(条件,值1，值2)功能：实现双分支应用在begin end中或外面 */ #2.case结构/*语法：情况1：类似于switchcase 变量或表达式when 值1 then 语句1;when 值2 then 语句阅读全文

posted @ 2019-08-16 16:19 DiYong 阅读(490) 评论(0) 推荐(0)

MySQL函数

摘要：含义：一组预先编译好的SQL语句的集合，理解成批处理语句 1、提高代码的重用性 2、简化操作 3、减少了编译次数并且减少了和数据库服务器的连接次数，提高了效率区别：存储过程：可以有0个返回，也可以有多个返回，适合做批量插入、批量更新函数：有且仅有1 个返回，适合做处理数据后返回一个结果阅读全文

posted @ 2019-08-16 16:17 DiYong 阅读(378) 评论(0) 推荐(0)

MySQL存储过程和函数

摘要：存储过程和函数：类似于java中的方法好处： 1、提高代码的重用性 2、简化操作 */ #存储过程 /* 含义：一组预先编译好的SQL语句的集合，理解成批处理语句 1、提高代码的重用性 2、简化操作 3、减少了编译次数并且减少了和数据库服务器的连接次数，提高了效率阅读全文

posted @ 2019-08-16 16:16 DiYong 阅读(283) 评论(0) 推荐(0)

MySQL变量

摘要：系统变量：全局变量会话变量自定义变量：用户变量局部变量阅读全文

posted @ 2019-08-16 16:15 DiYong 阅读(173) 评论(0) 推荐(0)

MySQL视图

摘要：含义：虚拟表，和普通表一样使用 mysql5.1版本出现的新特性，是通过表动态生成的数据比如：舞蹈班和普通班级的对比创建语法的关键字是否实际占用物理空间使用视图 create view 只是保存了sql逻辑增删改查，只是一般不能增删改表 create table 保存了数据增删改查阅读全文

posted @ 2019-08-16 15:24 DiYong 阅读(201) 评论(0) 推荐(0)

TCL（事务控制语言）

摘要：事务：一个或一组sql语句组成一个执行单元，这个执行单元要么全部执行，要么全部不执行。阅读全文

posted @ 2019-08-16 15:23 DiYong 阅读(1415) 评论(0) 推荐(0)

MySQL标识列（自增长列）

摘要：又称为自增长列含义：可以不用手动的插入值，系统提供默认的序列值特点： 1、标识列必须和主键搭配吗？不一定，但要求是一个key 2、一个表可以有几个标识列？至多一个！ 3、标识列的类型只能是数值型 4、标识列可以通过 SET auto_increment_increment=3;设置步长可以通过手动插入值，设置起始值阅读全文

posted @ 2019-08-16 15:21 DiYong 阅读(918) 评论(0) 推荐(0)

MySQL常见约束

摘要：常见约束 /* 含义：一种限制，用于限制表中的数据，为了保证表中的数据的准确和可靠性分类：六大约束 NOT NULL：非空，用于保证该字段的值不能为空比如姓名、学号等 DEFAULT:默认，用于保证该字段有默认值比如性别 PRIMARY KEY:主键，用于保证该字段的值具有唯一性，并且非空比如学号、员工编号等 UNIQUE:唯一，用于保证该字段的值具有唯一性，可以为空比如座位号 CHECK:检查约束【mysql中不支持】比如年龄、性别 FOREIGN KEY:外键，用于限制两个表的关系，用于保证该字段的值必须来自于主表的关联列的值在从表添加外键约束，用于引用主表中某列的值比如学生表的专业编号，员工表的部门编号，员工表的工种编号阅读全文

posted @ 2019-08-16 14:18 DiYong 阅读(1475) 评论(0) 推荐(1)

MySQL常见的数据类型

摘要：#常见的数据类型/*数值型：整型小数：定点数浮点数字符型：较短的文本：char、varchar 较长的文本：text、blob（较长的二进制数据）日期型： */ #一、整型/*分类：tinyint、smallint、mediumint、int/integer、bigint1 2 3 4 阅读全文

posted @ 2019-08-16 01:52 DiYong 阅读(296) 评论(0) 推荐(0)

DDL（数据定义语言）

摘要：一、库的管理创建、修改、删除二、表的管理创建、修改、删除创建： create 修改： alter 删除： drop 阅读全文

posted @ 2019-08-16 01:08 DiYong 阅读(943) 评论(0) 推荐(0)

DML语言（数据操纵语言）

摘要：数据操作语言：插入：insert 修改：update 删除：delete 阅读全文

posted @ 2019-08-15 20:16 DiYong 阅读(1775) 评论(0) 推荐(0)

进阶9：联合查询

摘要：union 联合合并：将多条查询语句的结果合并成一个结果语法：查询语句1 union 查询语句2 union ... 应用场景：要查询的结果来自于多个表，且多个表没有直接的连接关系，但查询的信息一致时特点：★ 1、要求多条查询语句的查询列数是一致的！ 2、要求多条查询语句的查询的每一列的类型和顺序最好一致 3、union关键字默认去重，如果使用union all 可以包含重复项阅读全文

posted @ 2019-08-15 20:02 DiYong 阅读(195) 评论(0) 推荐(0)

进阶8：分页查询 ★

摘要：应用场景：当要显示的数据，一页显示不全，需要分页提交sql请求语法： select 查询列表 from 表【join type join 表2 on 连接条件 where 筛选条件 group by 分组字段 having 分组后的筛选 order by 排序的字段】 limit 【offset,】size; offset要显示条目的起始索引（起始索引从0开始） size 要显示的条目个数特点： ①limit语句放在查询语句的最后 ②公式要显示的页数 page，每页的条目数size select 查询列表 from 表 limit (page-1)*size,size; 阅读全文

posted @ 2019-08-15 19:35 DiYong 阅读(181) 评论(0) 推荐(0)

进阶7：子查询

摘要：含义：出现在其他语句中的select语句，称为子查询或内查询外部的查询语句，称为主查询或外查询分类：按子查询出现的位置： select后面：仅仅支持标量子查询 from后面：支持表子查询 where或having后面：★ 标量子查询（单行） √ 列子查询（多行） √ 行子查询 exists后面（相关子查询）表子查询按结果集的行列数不同：标量子查询（结果集只有一行一列）列子查询（结果集只有一列多行）行子查询（结果集有一行多列）表子查询（结果集一般为多行多列）阅读全文

posted @ 2019-08-15 19:04 DiYong 阅读(266) 评论(0) 推荐(0)

进阶6：连接查询二、sql99语法

摘要：语法： select 查询列表 from 表1 别名【连接类型】 join 表2 别名 on 连接条件【where 筛选条件】【group by 分组】【having 筛选条件】【order by 排序列表】分类：内连接（★）：inner 外连接左外(★):left 【outer】右外(★)：right 【outer】全外：full【outer】交叉连接：cross 阅读全文

posted @ 2019-08-15 16:47 DiYong 阅读(296) 评论(0) 推荐(0)

进阶6：连接查询一、sql92标准

摘要：含义：又称多表查询，当查询的字段来自于多个表时，就会用到连接查询笛卡尔乘积现象：表1 有m行，表2有n行，结果=m*n行发生原因：没有有效的连接条件如何避免：添加有效的连接条件分类：按年代分类： sql92标准:仅仅支持内连接 sql99标准【推荐】：支持内连接+外连接（左外和右外）+交叉连接按功能分类：内连接：等值连接非等值连接自连接外连接：左外连接右外连接全外连接交叉连接阅读全文

posted @ 2019-08-15 15:16 DiYong 阅读(460) 评论(0) 推荐(0)

DataNode（面试开发重点）

摘要：1 DataNode工作机制 2 数据完整性 3 掉线时限参数设置 4 服役新数据节点 5 退役旧数据节点 6 Datanode多目录配置阅读全文

posted @ 2019-08-15 03:37 DiYong 阅读(469) 评论(0) 推荐(0)

NameNode和SecondaryNameNode（面试开发重点）

摘要：1 NN和2NN工作机制 2 Fsimage和Edits解析 3 CheckPoint时间设置 4 NameNode故障处理 5 集群安全模式 6 NameNode多目录配置阅读全文

posted @ 2019-08-15 03:31 DiYong 阅读(532) 评论(0) 推荐(0)

HDFS的数据流读写数据（面试开发重点）

摘要：1 HDFS写数据流程 1.1 剖析文件写入 HDFS写数据流程，如图所示 1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。 2）NameNode返回是否可以上传。 3）客户端请求第一个 Block 阅读全文

posted @ 2019-08-15 03:24 DiYong 阅读(649) 评论(2) 推荐(0)

客户端操作 2 HDFS的API操作 3 HDFS的I/O流操作

摘要：2 HDFS的API操作 2.1 HDFS文件上传（测试参数优先级） 1．编写源代码 2．将hdfs-site.xml拷贝到项目的根目录下 3．参数优先级参数优先级排序：（1）客户端代码中设置的值 >（2）ClassPath下的用户自定义配置文件 >（3）然后是服务器的默认配置 2.2 HDFS文阅读全文

posted @ 2019-08-15 03:16 DiYong 阅读(299) 评论(0) 推荐(0)

客户端操作 1.环境准备

摘要：HDFS客户端操作 1.HDFS客户端环境准备 1．根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径（例如：D:\Develop\hadoop-2.7.2），如图所示。图编译后的hadoop jar包 2．配置HADOOP_HOME环境变量，如图所示。图配置HADO 阅读全文

posted @ 2019-08-15 02:54 DiYong 阅读(390) 评论(0) 推荐(0)

HDFS概述和Shell操作

摘要：大数据技术之Hadoop（HDFS）第一章 HDFS概述 HDFS组成架构 HDFS文件块大小第二章 HDFS的Shell操作（开发重点） 1．基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2．命令大全 3．常用命令实操（0）阅读全文

posted @ 2019-08-15 02:41 DiYong 阅读(347) 评论(0) 推荐(0)

进阶5：分组查询

摘要：语法： select 查询列表 from 表【where 筛选条件】 group by 分组的字段【order by 排序的字段】; 特点： 1、和分组函数一同查询的字段必须是group by后出现的字段 2、筛选分为两类：分组前筛选和分组后筛选针对的表位置连接的关键字分组前筛选原始表 group by前 where 分组后筛选 group by后的结果集 group by后 having 阅读全文

posted @ 2019-08-13 17:09 DiYong 阅读(394) 评论(0) 推荐(0)

进阶4：常见函数-分组函数

摘要：分类： sum 求和、avg 平均值、max 最大值、min 最小值、count 计算个数特点： 1、sum、avg一般用于处理数值型 max、min、count可以处理任何类型 2、以上分组函数都忽略null值 3、可以和distinct搭配实现去重的运算 4、count函数的单独介绍一般使用count(*)用作统计行数、和分组函数一同查询的字段要求是group by后的字段阅读全文

posted @ 2019-08-13 15:40 DiYong 阅读(1640) 评论(0) 推荐(0)

进阶4：常见函数-单行函数

摘要：#一、字符函数 #二、数学函数 #三、日期函数 #四、其他函数 #五、流程控制函数阅读全文

posted @ 2019-08-13 00:17 DiYong 阅读(588) 评论(0) 推荐(0)

进阶3：排序查询

摘要：#1、按单个字段排序 #2、添加筛选条件再排序 #3、按表达式排序 #4、按别名排序 #5、按函数排序 #6、按多个字段排序阅读全文

posted @ 2019-08-12 23:11 DiYong 阅读(289) 评论(0) 推荐(0)

第8章 Spark SQL实战

摘要：第8章 Spark SQL实战 8.1 数据说明数据集是货品交易数据集。每个订单可能包含多个货品，每个订单可以产生多次交易，不同的货品有不同的单价。 8.2 加载数据 tbStock： tbStockDetail: tbDate: 注册表： 8.3 计算所有订单中每年的销售单数、销售总额统计所阅读全文

posted @ 2019-08-12 22:31 DiYong 阅读(1083) 评论(0) 推荐(0)

第7章 Spark SQL 的运行原理（了解）

摘要：第7章 Spark SQL 的运行原理（了解） 7.1 Spark SQL运行架构 Spark SQL对SQL语句的处理和关系型数据库类似，即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树，然后使用规则(Rule)对Tree进行绑定、优化等处理过程。Spark SQ 阅读全文

posted @ 2019-08-12 22:21 DiYong 阅读(958) 评论(0) 推荐(0)

第6章运行Spark SQL CLI

摘要：第6章运行Spark SQL CLI Spark SQL CLI可以很方便的在本地运行Hive元数据服务以及从命令行执行查询任务。需要注意的是，Spark SQL CLI不能与Thrift JDBC服务交互。在Spark目录下执行如下命令启动Spark SQL CLI： ./bin/spark-s 阅读全文

posted @ 2019-08-12 22:18 DiYong 阅读(268) 评论(0) 推荐(0)

第5章 JDBC/ODBC服务器

摘要：第5章 JDBC/ODBC服务器 Spark SQL也提供JDBC连接支持，这对于让商业智能(BI)工具连接到Spark集群上以及在多用户间共享一个集群的场景都非常有用。JDBC 服务器作为一个独立的 Spark 驱动器程序运行，可以在多用户之间共享。任意一个客户端都可以在内存中缓存数据表，对表阅读全文

posted @ 2019-08-12 22:17 DiYong 阅读(439) 评论(0) 推荐(0)

第4章 SparkSQL数据源

摘要：第4章 SparkSQL数据源 4.1 通用加载/保存方法 4.1.1 手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查阅读全文

posted @ 2019-08-12 22:09 DiYong 阅读(439) 评论(0) 推荐(0)

第3章 SparkSQL解析

摘要：第3章 SparkSQL解析 3.1 新的起始点SparkSession 在老的版本中，SparkSQL提供两种SQL查询起始点，一个叫SQLContext，用于Spark自己提供的SQL查询，一个叫HiveContext，用于连接Hive的查询，SparkSession是Spark最新的SQL查询阅读全文

posted @ 2019-08-12 21:53 DiYong 阅读(353) 评论(0) 推荐(0)

第2章执行SparkSQL查询

摘要：第2章执行SparkSQL查询 2.1 命令行查询流程打开Spark shell 例子：查询大于30岁的用户创建如下JSON文件，注意JSON的格式： {"name":"Michael"}{"name":"Andy", "age":30}{"name":"Justin", "age":19} 阅读全文

posted @ 2019-08-12 20:37 DiYong 阅读(279) 评论(0) 推荐(0)

第1章 Spark SQL概述

摘要：第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 Hive是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写Map 阅读全文

posted @ 2019-08-12 20:23 DiYong 阅读(394) 评论(0) 推荐(0)

Ubutun重启网卡

摘要：一、network利用root帐户# service networking restart 或者/etc/init.d/networking restart 二、ifdown/ifup# ifdown eth0# ifup eth0 三、ifconfig# ifconfig eth0 down# i 阅读全文

posted @ 2019-08-12 14:47 DiYong 阅读(298) 评论(0) 推荐(0)

Java面试通关要点汇总整理

摘要：简历篇请自我介绍请介绍项目基础篇基本功面向对象的特征 final, finally, finalize 的区别 int 和 Integer 有什么区别重载和重写的区别抽象类和接口有什么区别说说反射的用途及实现说说自定义注解的场景及实现 HTTP 请求的 GET 与 POST 方式的阅读全文

posted @ 2019-08-12 01:36 DiYong 阅读(855) 评论(0) 推荐(0)

40道Java基础常见面试题及详细答案

摘要：八种基本数据类型的大小，以及他们的封装类引用数据类型 Switch能否用string做参数 equals与==的区别自动装箱，常量池 Object有哪些公用方法 Java的四种引用，强弱软虚，用到的场景 Hashcode的作用 HashMap的hashcode的作用为什么重载hashCode方阅读全文

posted @ 2019-08-12 01:15 DiYong 阅读(1744) 评论(0) 推荐(0)

Java面试经

摘要：一、java基础1.String和StringBuffer、StringBuild的区别：http://blog.csdn.net/rmn190/article/details/14920132.hashcode和equals方法的关系：http://blog.csdn.net/lijiecao0 阅读全文

posted @ 2019-08-12 01:04 DiYong 阅读(490) 评论(0) 推荐(0)

Java面试题大纲

摘要：项目介绍大部分情况，这是一场面试的开门题，面试官问这个问题，主要是考察你的概述能力和全局视野。有的人经常抱怨自己每天在堆业务，但没有成长。事实上，很多情况下确实在堆业务，但并不是没有成长的。并非做中间件或者技术架构才是成长，例如我们的需求分析能力，沟通协作能力，产品思维能力，抽象建模能力等都是一个阅读全文

posted @ 2019-08-12 01:01 DiYong 阅读(892) 评论(0) 推荐(1)

100道Java基础面试题收集整理（附答案）

摘要：1.什么是B/S架构？什么是C/S架构 C/S(Client/Server)，客户端/服务端，桌面应用程序 2.你所知道网络协议有那些？ HTTP：超文本传输协议 FTP：文件传输协议 SMPT：简单邮件协议 TELNET：远程终端协议 POP3：邮件读取协议 3.Java都有那些开发平台？ 4.什阅读全文

posted @ 2019-08-11 15:40 DiYong 阅读(13145) 评论(0) 推荐(1)

Eclipse中构建maven项目的两种方式

摘要：Eclipse中构建maven项目的两种方式方式一： 1.构建maven项目 1.1 新建meven项目，可在Other中找到maven文件夹 1.2 进入maven项目后，点击next 1.3 在Catalog中选择“Internal”，选中webapp之后，点击next 1.4 在Group 阅读全文

posted @ 2019-08-11 13:18 DiYong 阅读(3488) 评论(0) 推荐(0)

Maven配置

摘要：1. Maven的下载在Maven的官网即可下载，点击访问Apache Maven。下载后解压即可，解压后目录结构如下： 2. Maven常用配置 2.1环境变量配置安装maven之前由于maven需要依赖jdk安装，因此需要先将jdk的路径配置成功后再将maven的安装路径进行配置。添加M 阅读全文

posted @ 2019-08-11 13:04 DiYong 阅读(377) 评论(0) 推荐(0)

协同过滤推荐算法的原理及实现

摘要：一、协同过滤算法的原理及实现二、基于物品的协同过滤算法详解阅读全文

posted @ 2019-08-11 00:05 DiYong 阅读(14538) 评论(0) 推荐(0)

实现具体步骤

摘要：阅读全文

posted @ 2019-08-10 23:06 DiYong 阅读(569) 评论(0) 推荐(0)

GRMS_README

摘要：基于Hadoop的商品推荐系统说明阅读全文

posted @ 2019-08-10 22:50 DiYong 阅读(603) 评论(0) 推荐(0)

协同过滤

摘要：推荐算法具有非常多的应用场景和商业价值，因此对推荐算法值得好好研究。推荐算法种类很多，但是目前应用最广泛的应该是协同过滤类别的推荐算法，本文就对协同过滤类别的推荐算法做一个概括总结，后续也会对一些典型的协同过滤推荐算法做原理总结。协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似的，在协同阅读全文

posted @ 2019-08-10 16:59 DiYong 阅读(1064) 评论(0) 推荐(0)

线性结构和非线性结构

摘要：线性结构和非线性结构阅读全文

posted @ 2019-08-09 00:54 DiYong 阅读(656) 评论(0) 推荐(0)

进阶2：条件查询

摘要：and or not and or not &&和and：两个条件都为true，结果为true，反之为false ||或or：只要有一个条件为true，结果为true，反之为false !或not：如果连接的条件本身为false，结果为true，反之为false 三、模糊查询 like between and in is null 通配符： % 任意多个字符,包含0个字符 _ 任意单个字符 #ESCAPE转义字符 #安全等于 <=> 阅读全文

posted @ 2019-08-07 23:57 DiYong 阅读(382) 评论(0) 推荐(0)

进阶1：基础查询

摘要：select 查询列表 from 表名; USE test;　　　　/*使用数据库*/ 起别名 AS 去重　　DISTINCT #CONCAT(a,b) 连接阅读全文

posted @ 2019-08-07 22:40 DiYong 阅读(313) 评论(0) 推荐(0)

MySQL安装与使用

摘要：MySQL安装与使用图解MySQL程序结构 MySql数据库的安装 DBMS分为两类：– 基于共享文件系统的DBMS （Access ）– 基于客户机——服务器的DBMS（MySQL、Oracle、SqlServer） • 社区版（免费）• 企业版（收费）Windows平台下下载：http://d 阅读全文

posted @ 2019-08-07 19:30 DiYong 阅读(202) 评论(0) 推荐(0)

MySQL SQL概述

摘要：MySQL SQL概述数据库的好处： •实现数据持久化 •使用完整的管理系统统一管理易数据库的概念： DB：数据库（database）：存储数据的“仓库”。它保存了一系列有组织的数据。 DBMS：数据库管理系统（Database Management System）。数据库是通过DBMS创建和操阅读全文

posted @ 2019-08-07 18:34 DiYong 阅读(209) 评论(0) 推荐(0)

稀疏数组sparseArray

摘要：稀疏数组sparseArray 应用实例 1) 使用稀疏数组，来保留类似前面的二维数组(棋盘、地图等等) 2) 把稀疏数组存盘，并且可以从新恢复原来的二维数组数 3) 整体思路分析 4) 代码实现 import scala.collection.mutable.ArrayBuffer //稀疏数组- 阅读全文

posted @ 2019-08-05 22:02 DiYong 阅读(604) 评论(0) 推荐(0)

第2章 RDD编程（2.3）

摘要：第2章 RDD编程（2.3） 2.3 TransFormation 基本RDD Pair类型RDD （伪集合操作交、并、补、笛卡尔积都支持） 2.3.1 map(func) 返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成 2.3.2 mapPartitions(func) 阅读全文

posted @ 2019-08-05 01:21 DiYong 阅读(333) 评论(0) 推荐(0)

第2章 RDD编程（2.1-2.2）

摘要：第2章 RDD编程 2.1 编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系阅读全文

posted @ 2019-08-05 01:13 DiYong 阅读(235) 评论(0) 推荐(0)

第1章 RDD概念弹性分布式数据集

摘要：第1章 RDD概念弹性分布式数据集 1.1 RDD为什么会产生 RDD是Spark的基石，是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢？ Hadoop的MapReduce是一种基于数据集的工作模式，面向数据，这种工作模式一般是从存储上加载数据集，然后操作数据集，最后写入物理存储设备阅读全文

posted @ 2019-08-04 02:17 DiYong 阅读(1221) 评论(0) 推荐(0)

4 IDEA环境应用

摘要：第4章 IDEA环境应用 spark shell仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在IDE中编制程序，然后打成jar包，然后提交到集群，最常用的是创建一个Maven项目，利用Maven来管理jar包的依赖。 4.1 在IDEA中编写WordCount程序 1）创建一个Mave 阅读全文

posted @ 2019-08-04 02:04 DiYong 阅读(152) 评论(0) 推荐(0)

3 Spark 集群安装

摘要：Spark安装地址、Standalone模式安装、JobHistoryServer配置、HA配置、Yarn模式安装阅读全文

posted @ 2019-08-03 01:59 DiYong 阅读(265) 评论(0) 推荐(0)

2 Spark角色介绍及运行模式

摘要：第2章 Spark角色介绍及运行模式 2.1 集群角色从物理部署层面上来看，Spark主要分为两种类型的节点，Master节点和Worker节点：Master节点主要运行集群管理器的中心化部分，所承载的作用是分配Application到Worker节点，维护Worker节点，Driver，Appl 阅读全文

posted @ 2019-08-03 01:32 DiYong 阅读(953) 评论(0) 推荐(0)

1 Spark概述

摘要：第1章 Spark概述 1.1 什么是Spark Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前，Spark生态系统阅读全文

posted @ 2019-08-03 01:26 DiYong 阅读(382) 评论(0) 推荐(0)

Spark中遇到的问题

摘要：spark启动slave时提示 JAVA_HOME is not set 解决方法：在sbin目录spark-config.sh 中添加自己的jdk 路径export JAVA_HOME=/home/hadoop/modules/jdk 启动： sbin/start-all.sh 阅读全文

posted @ 2019-08-03 01:06 DiYong 阅读(213) 评论(0) 推荐(0)

Diyo

08 2019 档案

公告