AntarcticPenguin

2019年10月28日

摘要：前言：数据分析的应用：了解用户画像、为企业做留存率、流失率等指标分析，进而精细化产品运营预测比特币走势信用卡发欺诈、自动屏蔽垃圾邮件等高效的学习方法(MAS方法)： Multi-Dimension：多角度认识事物，进而掌握它 Ask：不懂就问(突破这一点，同时也要兼顾“会问”) Shari 阅读全文

posted @ 2019-10-28 19:01 AntarcticPenguin 阅读(644) 评论(0) 推荐(0)

2019年10月26日

Gradle

摘要： Gradle与Ant、Maven类似，是一种项目构建工具，之前使用的Eclipse是使用Ant来实现项目构建的。在AS中第一次创建项目的时候，会自动下载Gradle在AS中第一次创建项目的时候，会自动下载Gradle。不过对国外的网站，网速太慢。使用本地已经下载好的gradle版本：File->S 阅读全文

posted @ 2019-10-26 14:20 AntarcticPenguin 阅读(281) 评论(0) 推荐(0)

2019年2月27日

对象内存分析

摘要：类本身属于引用类型，所以对于引用类型就必须为其进行内存分析，那么在分析之前，首先给出两块内存空间的概念：堆内存空间（Heap）：保存的是对象中具体的属性信息；栈内存空间（Stack）：是保存的堆内存的地址数值，所以现在可以简化一点，假设保存在栈内存中的是对象名称，一个栈内存只能够保存一块对应的堆阅读全文

posted @ 2019-02-27 17:10 AntarcticPenguin 阅读(400) 评论(0) 推荐(0)

bash shell基本编程

摘要：这里主要讲bash shell 变量等号之间不能有空格，直接定义变量追加字符串yes:name=me=${name}yes 特殊变量：环境变量通过env命令查找，其中一个path环境变量，例如执行ls命令，系统就会去找path下/usr/bin下的ls命令（其中有很多命令）。把普通变量变成环阅读全文

posted @ 2019-02-27 17:07 AntarcticPenguin 阅读(244) 评论(0) 推荐(0)

ResourceManager的HA配置

摘要： HDFS的NameNode类似，如果Yarn的ResourceManager挂掉了怎么办，我们需要配置ResourceManager的高可用性（一个挂掉，另一个可以接着起来干活），这里同样可以使用Zookeeper的master选举机制来实现 1、保证zookeeper服务正常，分别到master、阅读全文

posted @ 2019-02-27 17:04 AntarcticPenguin 阅读(1137) 评论(0) 推荐(0)

Yarn Capacity Scheduler配置

摘要：我们开辟出两个队列，一个是生产上需要的队列prod，一个是开发上需要的队列dev，开发下面又分了eng工程师和science科学家，我们这样就可以指定队列 1、关闭yarn, stop-yarn.sh 2、先备份$HADOOP_HOME/etc/hadoop/capacity-scheduler.x 阅读全文

posted @ 2019-02-27 17:03 AntarcticPenguin 阅读(1621) 评论(0) 推荐(0)

Yarn Fair Scheduler配置

摘要： 1、先关闭yarn, stop-yarn.sh 2、开启fair机制：在yarn-site.xml中配置： <property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.serve 阅读全文

posted @ 2019-02-27 17:03 AntarcticPenguin 阅读(1939) 评论(0) 推荐(0)

Yarn的三种资源调度机制

摘要：在企业中并不是只有一个人来执行MapReduce程序单独使用Yarn的资源，实际开发中，会有很多人一起使用Yarn这个资源，如果每个人都提交了job，这个时候Yarn就需要进行调度去分配资源给job，下面三种调度机制，默认的是FIFO机制，这种机制是先进先出队列机制，在企业中基本不会使用，第二种机阅读全文

posted @ 2019-02-27 17:02 AntarcticPenguin 阅读(2842) 评论(0) 推荐(0)

Hadoop压缩机制的了解

摘要：通过一定的算法对数据进行特殊编码，使得数据占用的存储空间比较小，这个过程我们称之为压缩，反之为解压缩不管哪种压缩工具都需要权衡时间和空间在大数据领域内还要考虑压缩文件的可分割性 Hadoop支持的压缩工具有：DEFLATE、gzip、bzip以及Snappy 压缩与解压：CompressTest 阅读全文

posted @ 2019-02-27 17:01 AntarcticPenguin 阅读(450) 评论(0) 推荐(0)

HDFS中两个集群数据文件拷贝的方式

摘要：在不同的两个HDFS集群中拷贝数据，我们可以使用distcp，集群之间拷贝数据的正确姿势是： hadoop distcp hdfs://master1:9999/foo/bar hdfs://master2:9999/bar/foo 上面的意思是将集群master1上的文件foo/bar拷贝到mas 阅读全文

posted @ 2019-02-27 17:01 AntarcticPenguin 阅读(2759) 评论(0) 推荐(1)

你到底是不是灵珠，我一个魔丸都活得比你像个人样，你敢再怂些吗？

公告