摘要: 在父进程中fork一个子进程,在子进程中调用exec函数启动新的程序。exec函数一共有六个,其中execve为内核级系统调用,其他(execl,execle,execlp,execv,execvp)都是调用execve的库函数。 #include<unistd.h> 函数定义 int execve 阅读全文
posted @ 2017-04-13 22:56 少年努力吧 阅读(42348) 评论(0) 推荐(2)
摘要: HQL学习 1.hive的数据类型 2.hive_DDL 2.1创建、删除、修改、使用数据库 2.hive_DDL 2.1创建、删除、修改、使用数据库 Default数据库,默认的,优先级相对于其他数据库是最高的 2.2重点:创建表_内部表_外部表 hive通过sql来分析hdfs上结构化的数据,将 阅读全文
posted @ 2017-04-13 08:34 少年努力吧 阅读(2703) 评论(0) 推荐(0)
摘要: TF-IDF 1. 概念 2. 原理 3. java代码实现思路 数据集: 三个MapReduce 第一个MapReduce:(利用ik分词器,将一篇博文,也就是一条记录中的content进行词的拆分) 第一个MapReduce最终运行的结果: 1. 得到数据集中微博的总数; 2. 得到每个词在当前 阅读全文
posted @ 2017-04-13 08:32 少年努力吧 阅读(429) 评论(0) 推荐(0)
摘要: ItemCF_基于物品的协同过滤 1. 概念 2. 原理 如何给用户推荐? 给用户推荐他没有买过的物品--103 3. java代码实现思路 数据集: 第一步:构建物品的同现矩阵 第二步:构建用户的得分矩阵 第三步:同现矩阵*评分矩阵 第四步:拿到最终结果,排序,得到给用户的推荐列表 问题一:物品同 阅读全文
posted @ 2017-04-13 08:30 少年努力吧 阅读(3732) 评论(0) 推荐(0)
摘要: hbase性能调优案例 1、人员-角色 人员有多个角色 角色优先级 角色有多个人员 人员 删除添加角色 角色 可以添加删除人员 人员 角色 删除添加 1、人员-角色 人员有多个角色 角色优先级 角色有多个人员 人员 删除添加角色 角色 可以添加删除人员 人员 角色 删除添加 设计思路 person表 阅读全文
posted @ 2017-04-13 08:29 少年努力吧 阅读(471) 评论(0) 推荐(0)
摘要: 性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的。基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后, 进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置;在这个基础之上, 如果说你的spar 阅读全文
posted @ 2017-04-13 08:28 少年努力吧 阅读(5729) 评论(0) 推荐(1)
摘要: Spark数据本地化-->如何达到性能调优的目的 1.Spark数据的本地化:移动计算,而不是移动数据 2.Spark中的数据本地化级别: TaskSetManager 的 Locality Levels 分为以下五个级别: PROCESS_LOCAL NODE_LOCAL NO_PREF RACK 阅读全文
posted @ 2017-04-13 08:28 少年努力吧 阅读(8928) 评论(0) 推荐(0)
摘要: Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度! 当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并行度没有与资源相匹配,那么导致你分配下去的资源都浪费掉 阅读全文
posted @ 2017-04-13 08:27 少年努力吧 阅读(5878) 评论(0) 推荐(0)
摘要: Spark Core 资源调度与任务调度(standalone client 流程描述) Spark集群启动: 集群启动后,Worker会向Master汇报资源情况(实际上将Worker的资源写入到Master的HashSet数据机构中) 一个 Worker 默认给一个 Application 启动 阅读全文
posted @ 2017-04-13 08:26 少年努力吧 阅读(593) 评论(0) 推荐(0)