08 2020 档案
摘要:[背包九讲1——01背包问题的理解(Java图解)] https://blog.csdn.net/caigen0001/article/details/106698380 背包九讲2——完全背包问题的理解(Java图解) 背包九讲3——多重背包问题的理解(Java图解)
阅读全文
摘要:JAVA 动态规划-求路径最大值 动态规划(多个例子说明以及java实现) 动态规划详详解
阅读全文
摘要:Demo 每年 select year(ordertime) 年, sum(Total) 销售合计 from 订单表 group by year(ordertime) 每月 select year(ordertime) 年, month(ordertime) 月, sum(Total) 销售合计 f
阅读全文
摘要:不同的二叉搜索树 问题 给定一个整数 n,求以 1 ... n 为节点组成的二叉搜索树有多少种? 方法一:动态规划 题目要求是计算不同二叉搜索树的个数。为此,我们可以定义两个函数: G(n): 长度为 n 的序列能构成的不同二叉搜索树的个数。 F(i, n): 以 i 为根、序列长度为 n 的不同二
阅读全文
摘要:下图为一张订单表(order1),现希望查找出至少连续3天下单的用户。 第一步:将订单表按UserId分组根据日期Date排序 第二步:用日期Date减去对应的排序号Num,若日期是连续的,则相减的结果Datedif相等。 第三步:按UserId,Datedif分组计数,得到各用户的连续下单天数。
阅读全文
摘要:sql 脚本 创建一个订单统计表格,并插入数据 create table `tb_order` ( `order_id` int (11), `user_id` int (11), `gmv` float , `create_date` datetime ); insert into `tb_ord
阅读全文
摘要:求每位同学考试成绩90分以上的优秀率 SELECT student_id,ROUND(AVG(score>90),2) FROM `score` GROUP BY `student_id` 求每日的乘客取消率 select t.Request_at as `Day`, ( round(avg(Sta
阅读全文
摘要:查找 部门工资前三高的所有员工 比如这题,找每个部门的工资前三名,那么先在子查询中用Employee和自己做连接, 连接条件是【部门相同但是工资比我高】,那么接下来按照having count(Salary) <= 2 来筛选的原理是:如果【跟我一个部门而且工资比我高的人数】不超过2个,那么我一定是
阅读全文
摘要:题目描述 Arrays.sort() Arrays.sort()中只有数组参数 int[] array = {5, 6, -1, 4}; Arrays.sort(array); 这种是默认的排序,按照字典序(ASCII)的顺序进行排序。 Arrays.sort()中数组参数和排序方法 使用提供的方法
阅读全文
摘要:编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。 IFNULL(expression, alt_value) select IFNULL((SELECT distinct Salary from Employee order by Salary desc limi
阅读全文
摘要:在一个字符串中找到第二个只出现4次的字符,如果不存在返回nul. import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.util.HashMap
阅读全文
摘要:程序计数器是一个比较小的内存区域,用于指示当前线程所执行的字节码执行到了第几行,是线程隔离的 方法区在JVM中也是一个非常重要的区域,它与堆一样,是被 线程共享 的区域。 在方法区中,存储了每个类的信息(包括类的名称、方法信息、字段信息)、静态变量、常量以及编译器编译后的代码等。 虚拟机栈描述的是J
阅读全文
摘要:进程和线程的区别 进程和线程的区别 Java实现多线程的方式 一文搞懂Java多线程使用方式、实现原理以及常见面试题 实现多线程的三种方式 线程安全的定义 什么是线程安全 线程安全产生的原因和解决方案 原因和解决方案 volatile关键字 volatile关键字 volatile和synchron
阅读全文
摘要:线性表 前驱元素 后继元素 线性表的特征:数据元素之间具有一种“一对一”的逻辑关系。 线性表的分类 线性表中数据存储的方式可以是顺序存储,也可以是链式存储,按照数据的存储方式不同,可以把线性表分为顺序 表和链表。
阅读全文
摘要:java遍历二叉树:前序遍历,中序遍历,后序遍历,遍历深度,求叶子节点个数,层次遍历 https://blog.csdn.net/wyqwilliam/article/details/82716295?utm_medium=distribute.pc_relevant.none-task-blog-
阅读全文
摘要:转载自 【动态规划】三种背包问题(01背包、完全背包、多重背包) 01背包 问题描述 给定n个物体(它们的重量为:w1,w2,......,wn,价值为:v1,v2,......,vn) 和 一个承受重量为W的背包, 问怎么选取这些物体,放在背包中(不超过背包的承重),让所取的子集达到最大价值。 实
阅读全文
摘要:求 int 型正整数在内存中存储时1的个数 /** * @Author hwj * @Date 2020/8/15 8:37 * @Desc:如果一个整数不为0,那么这个整数至少有一位是1。如果我们把这个整数减1, * 那么原来处在整数最右边的1就会变为0,原来在1后面的所有的0都会变成1 * (如
阅读全文
摘要:题库来源 计算字符个数 写出一个程序,接受一个由字母和数字组成的字符串,和一个字符,然后输出输入字符串中含有该字符的个数。不区分大小写。 public static void main(String[] args) { Scanner sc = new Scanner(System.in); whi
阅读全文
摘要:数据清单 前置知识 什么是网络爬虫 网络爬虫(Web Crawler),又称为网络蜘蛛(Web Spider)或Web 信息采集器,是一种按 照一定规则,自动抓取或下载网络信息的计算机程序或自动化脚本。 狭义上理解 利用标准的HTTP 协议,根据网络超链接(如https://www.baidu.co
阅读全文
摘要:项目背景 新冠疫情防控指挥作战平台项目的需求由传智播客提出,北京大数据研究院博雅智慧公司策划, 双方共同研发。项目实现了疫情态势、基层防控、物资保障、复工复产等多个专题板块,包括新冠 疫情防控指挥大屏子系统和新冠疫情防控指挥平台后台管理子系统。 通过新冠疫情防控指挥作战平台的建设及实施,使得从局部作
阅读全文
摘要:一、 模块开发 统计分析 数据仓库建设好以后,用户就可以编写Hive SQL语句对其进行访问并对其中数据进行分析。 在实际生产中,究竟需要哪些统计指标通常由数据需求相关部门人员提出,而且会不断有新的统计需求产生,以下为网站流量分析中的一些典型指标示例。 1. 流量分析 1.1. 基础指标多维统计分析
阅读全文
摘要:流量分析常见分类 指标是网站分析的基础,用来记录和衡量访问者在网站自的各种行为。常见的指标如下: 基础级指标 PageView浏览次数(PV):用户每打开1个网站页面,记录1个PV。用户多次打开同一页面PV累计多次。通俗解释就是页面被加载的总次数。 Unique Visitor独立访客(UV): 1
阅读全文
摘要:宽表窄表的引入 --需求:统计今天每个小时访问量有多少? --需要根据小时hour进行分组 group by 分组之后统计每个组内的个数count --当下:group by(substring(time_local,12,2)) --缺点:每一条记录在分组之前 都需要进行所谓的截取操作 --原因:
阅读全文
摘要:数据预处理 在正式处理数据之前对收集的数据进行预先处理的操作。 原因:不管通过何种手段收集的数据 往往是不利于直接分析的 数据中存在的格式规整的差异。 目的:把不干净的数据 格式不规则的数据 通过预处理清洗变成格式统一规整的结构化数据 技术:MapReduce 预处理的编程思路问题 在使用mr编程的
阅读全文
摘要:网站流量日志分析的意义 通过分析用户的行为数据 让更多的用户沉淀下来变成会员 赚取更多的钱。 如何进行网站分析 流量分析 - 质量分析 在看重数量的同时 需要关注流量的质量 所谓的质量指的是流量所能带来产生的价值。 - 多维度细分 维度指的是分析的问题的角度 在不同的维度下 问题所展示的特性是不一样
阅读全文
摘要:数仓设计 维度建模 以维度为标准 开展数据的分析需求 适用于面向分析领域的理论。比如分析型数据库 数据仓库 数据集市(OLAP) 事实表 分析主题的客观事件度量 是分析主题的数据聚集 事实表中一条记录往往对应着客观的一个事件 往往是一堆主键的聚集 维度表 所谓的维度就是指看待问题的角度 可以通过不同
阅读全文
摘要:beeline 连接报错 后台启动 nohup bin/hive --service hiveserver2 > /dev/null 2>&1 & bin/beeline !connect jdbc:hive2://node01:10000 Could not open connection to
阅读全文
摘要:初晨暖阳,夜落星河。少年披梦,远方有歌。红黄之上,春夏晚风。闲肆游走,人群熙攘。
阅读全文
摘要:hadoop集群启动 cd /export/servers/hadoop-2.7.5/ sbin/start-dfs.sh sbin/start-yarn.sh sbin/mr-jobhistory-daemon.sh start historyserver 三个端口查看界面 http://node
阅读全文
摘要:转载自 严阵以待 https://www.cnblogs.com/yanzhenyidai/p/13450965.html 上周客户说系统突然变得很慢,而且时不时的蹦出一个 404 和 500,弄得真的是很没面子,而恰巧出问题的时候正在深圳出差,所以一直没有时间 看问题,一直到今天,才算是把问题原因
阅读全文
摘要:文章转载自 微信公众号 数据管道 摘要 经常看到一份数据分析岗位的招聘要求:“熟练使用SQL”。那你真的熟练吗? 最基本的几个问题,SQL是什么?数据库是什么?RDBMS又是什么?什么叫表? 数据库(Database):按照数据结构来组织、存储和管理数据的仓库。 RDBMS:(Relational
阅读全文
摘要:1. 概念 其实就是一个容器(集合),存放数据库连接的容器。 当系统初始化好后,容器被创建,容器中会申请一些连接对象,当用户来访问数据库时,从容器中获取连接对象,用户访问完之后,会将连接对象归还给容器。 2. 好处 节约资源 用户访问高效 Druid:数据库连接池实现技术,由阿里巴巴提供的 步骤:
阅读全文
摘要:1.概念:Java DataBase Connectivity Java 数据库连接, Java语言操作数据库 JDBC本质:其实是官方(sun公司)定义的一套操作所有关系型数据库的规则,即接口。各个数据库厂商去实现这套接口,提供数据库驱动jar包。我们可以使用这套接口(JDBC)编程,真正执行的代
阅读全文
摘要:一.抽象类 在了解抽象类之前,先来了解一下抽象方法。抽象方法是一种特殊的方法:它只有声明,而没有具体的实现。抽象方法的声明格式为: public abstract void open(); 抽象方法必须使用abstract关键字进行修饰**。如果一个类含有抽象方法,则称这个类为抽象类**,抽象类必须
阅读全文
摘要:数据结构和算法概述 数据结构就是把数据元素按照一定的关系组织起来的集合,用来组织和存储数据 数据结构分为逻辑结构和物理结构两大类 逻辑结构分类 a.集合结构:集合结构中数据元素除了属于同一个集合外,他们之间没有任何其他的关系。 b.线性结构:线性结构中的数据元素之间存在一对一的关系。 c.树形结构:
阅读全文
摘要:1、static关键字基本概念 方便在没有创建对象的情况下来进行调用。 即被static关键字修饰的不需要创建对象去调用,直接根据类名就可以去访问。 static关键字修饰类(内部类) java里面static一般用来修饰成员变量或函数。但有一种特殊用法是用static修饰内部类,普通类是不允许声明
阅读全文
摘要:1. MapReduce的思想核心是“分而治之” Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。 Reduce负责“合”,即对map阶段的结果进行全局汇总。 MapReduce运行在yarn集群 Resour
阅读全文
摘要:| JAVA开发手册 1. 项目名全部小写 代码中的命名均不能以下划线或美元符号开始,也不能以下划线或美元符号结束。 代码中的命名严禁使用拼音与英文混合的方式,更不允许直接使用中文的方式。 2. 包名全部小写 包名统一使用小写,点分隔符之间有且仅有一个自然语义的英语单词。包名统一使用单数形式,但是类
阅读全文
摘要:1. 为什么要配置环境变量? 答:为了让javac命令(编译命令)和Java命令(运行命令)能在任何文件夹都能运行。 2. JAVA多线程的理解 进程与线程 进程是程序的一次动态执行过程,它需要经历从代码加载,代码执行到执行完毕的一个完整的过程,这个过程也是进程本身从产生,发展到最终消亡的过程。多进
阅读全文
摘要:基础介绍 Git是目前世界上最先进的分布式版本控制系统。 版本控制系统:记录文档在什么时候被谁改了,改了什么东西。 Git 与 GitHub 两者比较 Git就是一个软件,记录一个或若干文件内容的变化。 GitHub是一个为用户提供git服务的网站。 Git的准备 GitHub账号注册~ 下载女装g
阅读全文
摘要:| 部分转载自 https://www.deeplearn.me/2892.html 一般写sql经常会遇到行转列或者列转行之类的操作,就像concat_ws之类的函数被广泛的使用,今天这个也是经常要使用的拓展方法。 背景介绍 explode与lateral view在关系型数据库中本身是不该出现的
阅读全文
摘要:1. 创建 Maven 工程 <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec --> <dependency> <groupId>org.apache.hive</groupId> <a
阅读全文
摘要:数据仓库 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。 它出于分析性报告和决策支持目的而创建。 数据仓库与数据库区别 数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区
阅读全文
摘要:#yarn 介绍 yarn主要就是为了调度资源,管理任务等。 YARN总体上是Master/Slave结构,主要由ResourceManager、NodeManager、 ApplicationMaster和Container等几个组件构成。 ResourceManager(RM) 负责处理客户端请
阅读全文
摘要:1.hive介绍 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了**hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚
阅读全文
摘要:认识Linux系统及基础命令 Linux中一切皆文件 内核 + 文件系统 + shell = Linux Linux是一个树形的文件系统结构 第一层目录:/ 整个文件系统的访问入口 重要的二级目录 bin:存储Linux上常用的命令 dev:放置设备的目录 etc:Linux配置文件目录 home:
阅读全文
摘要:基本操作 help 帮助 help timpstampdiff; 登录 退出 - 登录 service mysqld start mysql -uroot -p123456 - 退出 quit 简单查询,不区分大小写 # 查看版本号及当前时间 select version(),user(),curr
阅读全文
摘要:一、Flume 采集数据会丢失吗? Flume不会丢失数据,根据Flume的架构原理,其内部有完善的事务机制,Source到Channel是事务性的,Channel到Sink也是事务性的,因此这两个环节不会出现数据的丢失; 唯一可能丢失数据的情况是Channel采用memoryChannel,age
阅读全文
摘要:[资料】(https://github.com/jast90/awesome-learning/issues/1)) Hbase 使用场景和成功案例 Hbase是一种数据库:Hadoop分布式数据库 HBase 应用场景 -1、用户画像 比如大型的视频网站,电商平台产生的用户点击行为、浏览行为等等存
阅读全文
摘要:应用场景 缓冲作用!!! # 队列Queue 一种特殊的线性表(数据元素首尾相接),特殊之处在于只允许在首部删除元素和在尾部追加元素(FIFO)。入队、出队。 # 消息队列MQ 消息+队列,保存消息的队列。消息的传输过程中的容器;主要提供生产、消费接口供外部调用做数据的存储和获取。 集群搭建-kaf
阅读全文
摘要:Sqoop 基本概念 Apache Sqoop是一个性能高、易用、灵活的数据导入导出工具,在关系型数据库与Hadoop之间搭建了一个桥梁。 # 应用场景 需要将HDFS或Hive上的数据导出到传统关系型数据库中(如MySQL、Oracle等),或者将传统关系型数据库中的数据导入到HDFS或Hive上
阅读全文
摘要:| https://www.jianshu.com/p/87402c807278 http://sqoop.apache.org/
阅读全文
摘要:淘宝用户行为分析 数据分析实战.三 项目背景和数据 通过此项目学习电商数据分析的指标与数据分析的基本方法。 数据来源 阿里云天池数据库 数据描述 数据集介绍 文件名称 说明 包含特征 UserBehavior.csv 包含所有的用户行为数据 用户ID,商品ID,商品类目ID,行为类型,时间戳 Use
阅读全文

浙公网安备 33010602011771号