摘要: 前言: 数据分析的应用: 了解用户画像、为企业做留存率、流失率等指标分析,进而精细化产品运营 预测比特币走势 信用卡发欺诈、自动屏蔽垃圾邮件等 高效的学习方法(MAS方法): Multi-Dimension:多角度认识事物,进而掌握它 Ask:不懂就问(突破这一点,同时也要兼顾“会问”) Shari 阅读全文
posted @ 2019-10-28 19:01 AntarcticPenguin 阅读(599) 评论(0) 推荐(0) 编辑
摘要: Gradle与Ant、Maven类似,是一种项目构建工具,之前使用的Eclipse是使用Ant来实现项目构建的。在AS中第一次创建项目的时候,会自动下载Gradle在AS中第一次创建项目的时候,会自动下载Gradle。不过对国外的网站,网速太慢。 使用本地已经下载好的gradle版本:File->S 阅读全文
posted @ 2019-10-26 14:20 AntarcticPenguin 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 类本身属于引用类型,所以对于引用类型就必须为其进行内存分析,那么在分析之前,首先给出两块内存空间的概念: 堆内存空间(Heap):保存的是对象中具体的属性信息; 栈内存空间(Stack):是保存的堆内存的地址数值,所以现在可以简化一点,假设保存在栈内存中的是对象名称,一个栈内存只能够保存一块对应的堆 阅读全文
posted @ 2019-02-27 17:10 AntarcticPenguin 阅读(385) 评论(0) 推荐(0) 编辑
摘要: 这里主要讲bash shell 变量 等号之间不能有空格,直接定义变量 追加字符串yes:name=me=${name}yes 特殊变量:环境变量 通过env命令查找,其中一个path环境变量,例如执行ls命令,系统就会去找path下/usr/bin下的ls命令(其中有很多命令)。 把普通变量变成环 阅读全文
posted @ 2019-02-27 17:07 AntarcticPenguin 阅读(224) 评论(0) 推荐(0) 编辑
摘要: HDFS的NameNode类似,如果Yarn的ResourceManager挂掉了怎么办,我们需要配置ResourceManager的高可用性(一个挂掉,另一个可以接着起来干活),这里同样可以使用Zookeeper的master选举机制来实现 1、保证zookeeper服务正常,分别到master、 阅读全文
posted @ 2019-02-27 17:04 AntarcticPenguin 阅读(1080) 评论(0) 推荐(0) 编辑
摘要: 我们开辟出两个队列,一个是生产上需要的队列prod,一个是开发上需要的队列dev,开发下面又分了eng工程师和science科学家,我们这样就可以指定队列 1、关闭yarn, stop-yarn.sh 2、先备份$HADOOP_HOME/etc/hadoop/capacity-scheduler.x 阅读全文
posted @ 2019-02-27 17:03 AntarcticPenguin 阅读(1574) 评论(0) 推荐(0) 编辑
摘要: 1、先关闭yarn, stop-yarn.sh 2、开启fair机制:在yarn-site.xml中配置: <property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.serve 阅读全文
posted @ 2019-02-27 17:03 AntarcticPenguin 阅读(1875) 评论(0) 推荐(0) 编辑
摘要: 在企业中并不是只有一个人来执行MapReduce程序单独使用Yarn的资源,实际开发中,会有很多人一起使用Yarn这个资源,如果每个人都提交了job,这个时候Yarn就需要进行调度去分配资源给job, 下面三种调度机制,默认的是FIFO机制,这种机制是先进先出队列机制,在企业中基本不会使用,第二种机 阅读全文
posted @ 2019-02-27 17:02 AntarcticPenguin 阅读(2748) 评论(0) 推荐(0) 编辑
摘要: 通过一定的算法对数据进行特殊编码,使得数据占用的存储空间比较小,这个过程我们称之为压缩,反之为解压缩 不管哪种压缩工具都需要权衡时间和空间 在大数据领域内还要考虑压缩文件的可分割性 Hadoop支持的压缩工具有:DEFLATE、gzip、bzip以及Snappy 压缩与解压:CompressTest 阅读全文
posted @ 2019-02-27 17:01 AntarcticPenguin 阅读(426) 评论(0) 推荐(0) 编辑
摘要: 在不同的两个HDFS集群中拷贝数据,我们可以使用distcp,集群之间拷贝数据的正确姿势是: hadoop distcp hdfs://master1:9999/foo/bar hdfs://master2:9999/bar/foo 上面的意思是将集群master1上的文件foo/bar拷贝到mas 阅读全文
posted @ 2019-02-27 17:01 AntarcticPenguin 阅读(2702) 评论(0) 推荐(1) 编辑
//开启礼花特效的js