03 2018 档案
摘要:公司用的阿里云的redis,因为无法外网访问,而且阿里云控制台无法批量删除,很麻烦。 我在一台内网服务器上安装了redis客户端,通过客户端利用脚本对数据批量删除,脚本内容如下: 我把这个脚本放在了${REDIS_HOME}/bin目录下。脚本的名称是delete.sh 使用方式:
阅读全文
摘要:java9并没有在语言层面做出很多改变,而是致力于一些新特性,如模块化,其核心就是解决历史遗留问题,为以后的jar包森林理清道路。模块化是一个很大的命题,就不讲那么细致了,关于java9的特性也有很多书籍可供参考,如[《Java 9 Revealed: For Early Adoption and
阅读全文
摘要:Working on a Per Partition Basis(基于分区的操作) 以每个分区为基础处理数据使我们可以避免为每个数据项重做配置工作。如打开数据库连接或者创建随机数生成器这样的操作,我们希望避免为每个元素重做配置工作。Spark有分区版本的 和`foreach`,通过让RDD的每个分区
阅读全文
摘要:Introduction(介绍) 本章介绍了之前章节没有涵盖的高级Spark编程特性。我们介绍两种类型的共享变量:用来聚合信息的累加器和能有效分配较大值的广播变量。基于对RDD现有的transformation(转换),我们针对构建成本高的任务引入批量操作,如查询数据库。为了扩展我们可使用工具的范围
阅读全文
摘要:SequenceFiles(序列文件) SequenceFile是Hadoop的一种由键值对小文件组成的流行的格式。SequenceFIle有同步标记,Spark可以寻找标记点,然后与记录边界重新同步。Spark还可以从多个节点并行高效地读取SequenceFile。Sequ
阅读全文
摘要: 开发工程师和数据科学家都会受益于本章的部分内容。工程师可能希望探索更多的输出格式,看看有没有一些适合他们下游用户的格式。数据科学家可能会更关注他们已经使用的数据格式。 Motivation 我们已经介绍了大量分布式程序使用的Spark操作。目前为止,我
阅读全文
摘要:Actions Available on Pair RDDs (键值对RDD可用的action) 和transformation(转换)一样,键值对RDD也可以使用基础RDD上的action(开工),并且键值对RDD有一些利用键值对数据特性的的action,如下表: 表4 3
阅读全文

浙公网安备 33010602011771号