摘要:1. 概述 在实际开发过程中,我们经常需要调用对方提供的接口或测试自己写的接口是否合适。很多项目都会封装规定好本身项目的接口规范,所以大多数需要去调用对方提供的接口或第三方接口(短信、天气等)。 在Java项目中调用第三方接口的方式有: ①通过JDK网络类Java.net.HttpURLConnec 阅读全文
posted @ 2019-04-29 11:44 牧梦者 阅读 (15775) 评论 (4) 编辑
摘要:常见分类模型与算法 距离判别法,即最近邻算法KNN; 贝叶斯分类器; 线性判别法,即逻辑回归算法; 决策树; 支持向量机; 神经网络; 1. KNN分类算法原理及应用 1.1 KNN概述 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法。 KNN算法的指导思想是 阅读全文
posted @ 2018-08-24 17:42 牧梦者 阅读 (11881) 评论 (0) 编辑
摘要:本章导读 机器学习(machine learning, ML)是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多领域的交叉学科。ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识、新技能,并重组已学习的知识结构使之不断改善自身。 MLlib是Spark提供的可扩展的机器学习库。ML 阅读全文
posted @ 2018-08-15 17:39 牧梦者 阅读 (15604) 评论 (1) 编辑
摘要:1. Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。 1.2 为 阅读全文
posted @ 2018-05-12 03:04 牧梦者 阅读 (12410) 评论 (0) 编辑
摘要:1. HBase简介 1.1 什么是HBase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成 阅读全文
posted @ 2018-04-13 12:57 牧梦者 阅读 (45431) 评论 (2) 编辑
摘要:1.RPC原理解析 1.1 什么是RPC RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP/IP或UDP,为通信程序之间携带信息数据。RP 阅读全文
posted @ 2018-04-01 23:59 牧梦者 阅读 (17049) 评论 (7) 编辑
摘要:1. Excel2003与Excel2007 两个版本的最大行数和列数不同,2003版最大行数是65536行,最大列数是256列,2007版及以后的版本最大行数是1048576行,最大列数是16384列。 excel2003是以二进制的方式存储,这种格式不易被其他软件读取使用;而excel2007采 阅读全文
posted @ 2018-01-20 17:42 牧梦者 阅读 (24961) 评论 (59) 编辑
摘要:1. 实例的开启与关闭 var zkClient: ZooKeeper = null try { zkClient = new ZooKeeper(getZkUrl(), 2000, new Watcher { override def process(watchedEvent: WatchedEv 阅读全文
posted @ 2020-01-14 18:03 牧梦者 阅读 (51) 评论 (0) 编辑
摘要:1. 概述 Lucene是一个Java语言编写的利用倒排原理实现的文本检索类库; Solr是以Lucene为基础实现的文本检索应用服务。Solr部署方式有单机方式、多机Master-Slaver方法、Cloud方式。 SolrCloud是基于Solr和Zookeeper的分布式搜索方案。当索引越来越 阅读全文
posted @ 2019-12-02 00:38 牧梦者 阅读 (190) 评论 (0) 编辑
摘要:1. 概述 Apache Ranger是大数据领域的一个集中式安全管理框架,目的是通过制定策略(policies)实现对Hadoop组件的集中式安全管理。用户可以通过Ranger实现对集群中数据的安全访问。 2. Ranger内部组件 Ranger由三个模块组成:Ranger内部组件、依赖组件、扩展 阅读全文
posted @ 2019-11-29 19:06 牧梦者 阅读 (644) 评论 (0) 编辑
摘要:1. 什么是DistCp DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Reduce方法,这个工具在语义和执行 阅读全文
posted @ 2019-11-18 16:40 牧梦者 阅读 (317) 评论 (0) 编辑
摘要:1. Idea自身打包方式 1.1 创建Artifacts 快捷键(Ctrl+Alt+Shift+S)打开项目的Project Structure。在Artifacts创建 接着,指定main class,如下: 最后,得到创建得到的artifacts 1.2 打包Artifacts 在菜单栏目选B 阅读全文
posted @ 2019-10-31 22:32 牧梦者 阅读 (2141) 评论 (0) 编辑
摘要:1. UV、PV、TopN概念 1.1 UV(unique visitor) 即独立访客数 指访问某个站点或点击某个网页的不同IP地址的人数。在同一天内,UV只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数。UV提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全 阅读全文
posted @ 2019-09-30 23:52 牧梦者 阅读 (247) 评论 (0) 编辑
摘要:本文分为17个模块,分别是:Java基础、容器、多线程、反射、对象拷贝、Java web、异常、网络、设计模式、算法、Spring/Spring MVC、Spring Boot/Spring Cloud、Hibernate、MyBatis、MySQL、Redis、JVM。 1. Java基础 1.  阅读全文
posted @ 2019-08-06 11:11 牧梦者 阅读 (516) 评论 (2) 编辑
摘要:1. 五种主流的大数据架构 1.1 传统大数据架构 之所以叫传统大数据架构,是因为其定位是为了解决传统BI的问题,简单来说,数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题。可以看到,其依然保留了ETL的动作,将数据经 阅读全文
posted @ 2019-07-16 23:11 牧梦者 阅读 (2137) 评论 (0) 编辑
摘要:1. 概述 UDF函数其实就是一个简单的函数,执行过程就是在Hive转换成MapReduce程序后,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。UDF只能实现一进一出的操作,如果需要实现多进一出,则需要实现UDAF。 Hive可以允许用户编写自己定义的函数UDF,来 阅读全文
posted @ 2019-07-16 11:46 牧梦者 阅读 (4259) 评论 (0) 编辑
摘要:1. 概述 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下 阅读全文
posted @ 2019-07-15 16:25 牧梦者 阅读 (447) 评论 (0) 编辑