会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
牧梦者
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
12
下一页
2019年12月2日
Ranger安装部署 - solr安装
摘要: 1. 概述 Lucene是一个Java语言编写的利用倒排原理实现的文本检索类库; Solr是以Lucene为基础实现的文本检索应用服务。Solr部署方式有单机方式、Cloud方式。 SolrCloud是基于Solr和Zookeeper的分布式搜索方案。当索引越来越大,一个单一的系统无法满足磁盘需求,
阅读全文
posted @ 2019-12-02 00:38 牧梦者
阅读(3078)
评论(2)
推荐(0)
2019年11月29日
Ranger安装部署
摘要: 1. 概述 Apache Ranger是大数据领域的一个集中式安全管理框架,目的是通过制定策略(policies)实现对Hadoop组件的集中式安全管理。用户可以通过Ranger实现对集群中数据的安全访问。 2. Ranger内部组件 Ranger由三个模块组成:Ranger内部组件、依赖组件、扩展
阅读全文
posted @ 2019-11-29 19:06 牧梦者
阅读(14981)
评论(6)
推荐(0)
2019年11月18日
Hadoop跨集群迁移数据(整理版)
摘要: 1. 什么是DistCp DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Reduce方法,这个工具在语义和执行
阅读全文
posted @ 2019-11-18 16:40 牧梦者
阅读(5743)
评论(0)
推荐(0)
2019年10月31日
IntelliJ IDEA自身以及maven项目打包方式(单模块)
摘要: 1. Idea自身打包方式 1.1 创建Artifacts 快捷键(Ctrl+Alt+Shift+S)打开项目的Project Structure。在Artifacts创建 接着,指定main class,如下: 最后,得到创建得到的artifacts 注: 这里可以通过“+”或者“-”选择那些需要
阅读全文
posted @ 2019-10-31 22:32 牧梦者
阅读(47314)
评论(1)
推荐(5)
2019年9月30日
互联网UV,PU,TopN统计
摘要: 1. UV、PV、TopN概念 1.1 UV(unique visitor) 即独立访客数 指访问某个站点或点击某个网页的不同IP地址的人数。在同一天内,UV只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数。UV提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全
阅读全文
posted @ 2019-09-30 23:52 牧梦者
阅读(3313)
评论(0)
推荐(2)
2019年8月6日
Java面试题收录含答案(整理版)持续中....
摘要: 本文分为17个模块,分别是:Java基础、容器、多线程、反射、对象拷贝、Java web、异常、网络、设计模式、算法、Spring/Spring MVC、Spring Boot/Spring Cloud、Hibernate、MyBatis、MySQL、Redis、JVM。 1. Java基础 1.
阅读全文
posted @ 2019-08-06 11:11 牧梦者
阅读(1896)
评论(2)
推荐(0)
2019年7月16日
收集各大互联网公司大数据平台架构
摘要: 1. 五种主流的大数据架构 1.1 传统大数据架构 之所以叫传统大数据架构,是因为其定位是为了解决传统BI的问题,简单来说,数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题。可以看到,其依然保留了ETL的动作,将数据经
阅读全文
posted @ 2019-07-16 23:11 牧梦者
阅读(11686)
评论(0)
推荐(2)
Hive UDF函数构建
摘要: 1. 概述 UDF函数其实就是一个简单的函数,执行过程就是在Hive转换成MapReduce程序后,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。UDF只能实现一进一出的操作,如果需要实现多进一出,则需要实现UDAF。 Hive可以允许用户编写自己定义的函数UDF,来
阅读全文
posted @ 2019-07-16 11:46 牧梦者
阅读(14007)
评论(0)
推荐(0)
2019年7月15日
Impala集成C3P0的连接方式
摘要: 1. 概述 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下
阅读全文
posted @ 2019-07-15 16:25 牧梦者
阅读(1624)
评论(0)
推荐(0)
2019年7月4日
Hive优化(整理版)
摘要: 1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapRe
阅读全文
posted @ 2019-07-04 01:31 牧梦者
阅读(49838)
评论(12)
推荐(6)
上一页
1
2
3
4
5
6
7
···
12
下一页
公告